HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

李彦宏:大模型幻觉基本消除,这是只靠想法就能赚钱的时代

  • 2024-11-12
    北京
  • 本文字数:8937 字

    阅读完需:约 29 分钟

大小:4.33M时长:25:13
李彦宏:大模型幻觉基本消除,这是只靠想法就能赚钱的时代

11 月 12 日,李彦宏在“应用来了百度世界 2024 大会上发表了近一个小时左右的演讲,期间分享了百度在大模型应用上的观察和思考,同时展示了百度过去一年在大模型方面的成绩单,主要观点包括:

 

  • 过去这 24 个月,AI 行业的最大变化是大模型基本消除了幻觉。李彦宏现场发布检索增强的文生图技术 iRAG,并表示其商业价值体现在无幻觉、超真实、没成本和立等可取。

  • AI 是真需求。李彦宏表示,AI 应用方向的两个方向分别是智能体和产业应用。

  • 智能体是 AI 应用的最主流形态,即将迎来爆发点。李彦宏表示,智能体可能会变成 AI 原生时代,内容、信息和服务的新载体。他将智能体分为 4 种不同类型,包括公司类智能体,角色类智能体,工具类智能体和行业类智能体。

  • 百度不是要推出一个“超级应用”,而是要打造数百万个“超级有用”的应用。

  • 我们将迎来一个前所未有的只靠想法就能赚钱的时代。李彦宏现场发布无代码工具“秒哒”,并称之为“迄今为止人类历史上最复杂的多智能体协作工具”。

 

下面为演讲原文,我们在不改变原义基础上进行了删减:

 

今年我们把大会的主题定成“应用来了”,这代表了我们对大模型和生成式 AI 当下的认知和判断。

 

大模型火了将近两年,相关技术以前所未有的速度进行迭代和创新,从大公司到创业者到风险投资,各路人马大家都在寻找生成式 AI 时代基于大模型的超级应用。 我们看到,这张图是由第三方研究机构最近发布的全球 AI 全景,基本展现了大模型和生成式 AI 爆发过程中,一浪一浪叠加的状态。

 

首先是 OpenAI 发布了 ChatGPT,后来百度发布文心一言,紧接着就是谷歌发布了 Bard,后来改名为 Gemini;接着,以英伟达为代表的芯片厂商和微软为代表的云厂商吃到红利;然后我们也看到了开源模型的奋起直追。与此同时,各类应用层的创业公司开始获得投资,一些传统的软件厂商也开始用 AI 重构自己的产品。

 

然而客观地讲,大家期待的超级应用还没有出现,甚至有人开始问,过去这 24 个月,这种全球性的大模型狂热,究竟是一场新的技术革命,还是新一轮泡沫?作为中国人工智能的扛旗者,我想我们是有资格回答这个问题的。

 

大家请看:这张图这是文心大模型的日均调用量变化曲线图,到今天这个数字已经超过了 15 亿,每天调用 15 亿。这是一条非常陡峭的增长曲线,在过去 18 个月当中,中国的大模型应用爆发可以用这张图或者这个曲线来代表。说实话,这个增速是超出了我的预期的。

 

 

我记得今年 5 月份,就是 6 个月之前,当我们的人均调用量达到两亿的时候,我跟我的高管们讨论大模型的未来,讨论怎么就叫成了。我当时说,如果我们的调用量日均的 API 调用量,大模型 API 调用量,一年之内如果涨 10 倍,也就是从 2 亿涨到 20 亿,一年时间涨 10 倍,我认为就成了,就说明大家是真需要。现在仅仅半年过去,我们就比较接近这个数字了,势头非常猛。

 

文心 iRAG 亮相,李彦宏:大模型基本消除幻觉

调用量涨这么快,背后是文心大模型不遗余力的升级进化、降本提速的过程,也是我们紧贴客户需求,不断发现问题、解决问题的过程。去年三月,文心一言发布的时候,我们说百度大模型的特色是知识增强、检索增强。后来我们发现,检索增强并不是百度特色,而是逐步成为了行业的共识。检索增强的手段,英文叫 RAG,就是 Retrieval-augmented Generation。

 

当然,我们是做搜索起家,这方面我们理应做得最好。这个手段的意义在哪呢?就是让大模型基本消除了幻觉。你要想基于大模型开发应用,消除幻觉是必须的,如果这个模型总是一本正经的胡说八道,就不会有人信你,就不会有应用。有人说我用模型来写小说,有点幻觉可能更有意思,更能引人入胜。不对!即使是文学创作,也需要故事前后保持一致,否则就不是智能而是智障了!

 

所以如果你要问我,过去这 24 个月,对行业而言,最大的变化是什么?那我的回答一定是,大模型基本消除了幻觉,它回答问题的准确性大大地提升了,这让 AI 从“一本正经的胡说八道”,变得可用、可被信赖。我们知道,大模型是一个概率模型,生成的内容是有不确定性的。但是当我们采用 RAG 技术后,大模型会利用检索到的信息来指导文本或答案的生成,从而极大地提高了内容的质量和准确性。


 

今天,文字层面的 RAG 已经做得很好了,但是图像等多模态内容和 RAG 的结合还不够。

 

大家请看这张图(下图),这是我们用开源模型生成的一张北京天坛的图片,看上去确实有点像天坛,但你总觉得哪儿不对。 告诉大家,真正的天坛长这个样字,是三层,但是模型生成的是四层,这是文生图比较典型的幻觉现象。这种幻觉现象,今天仍然很普遍。所以,今天的多模态大模型没有什么成规模的应用出来,就是幻觉没有解决,至少没有像文生文 RAG 解决得那么好。

 

(左:其他模型,右:百度)

 

今年年初,我们决定要解决这个问题。注意,就是在整个中文互联网都为 Sora 而“捶胸顿足、上吐下泻”的时候,我们决定解决图像生成的幻觉问题。这个问题看起来更简单、甚至更枯燥,但是不解决就不会有应用。我们开发了一项颠覆性的技术叫做 iRAG,就是 image based RAG,检索增强的文生图技术。

 

之前,完全基于大语言模型的文生图系统,生成的图片常常是“一眼假”,甚至逻辑不合常理。百度的 iRAG,将百度搜索的亿级图片资源跟强大的基础模型能力进行结合,这样就可以生成各种超真实的图片,整体效果远远超过文生图的原生系统,去掉了机器味儿。

 

让我们看一下这个案例,提示词是:画一张大众揽巡汽车飞越长城的图片,写实风格。

 

大家看,这张图片中的汽车跟照片一样真实,无论是车型还是车标都没有错误或者变形,它跟长城这个背景的融合度也非常高。这就是基于 iRAG 技术创作出来的一张图片,它的内容元素、画面氛围都非常真实,逼近实拍的海报,但实拍你的车是飞不起来的,就像是 P 上去的一样。 

 

当然,你还可以让 AI 生成这辆汽车在荒野上、城市中,在各种各样真实场景的图片。随着 AI 生成图片的可用性大大提高,它的应用空间也随即打开了。比如在品牌宣传场景,以前拍这样一组海报动辄需要一二十万,甚至大几十万,但是现在这种创作的成本接近于 0。 

 

简单说来,iRAG 的商业价值体现在:无幻觉、超真实、没成本,而且立等可取。试想一下,如果大众的海报生成的车型长得像丰田,那可就糟心了。

 

除了特定的物品,我们还可以生成特定人物跟任意场景的背景结合的照片。 我们以爱因斯坦为例,生成一张他和天坛打卡的合影。大家看是不是很像,这完全是利用 iRAG 技术生成的。

 

 

我们用同样的提示词,用一些开源模型生成了几张,大家可以做一下比较。有的长得根本不像爱因斯坦,唯一一个长得像爱因斯坦的,那背景大家一看,也不是天坛。

 

可以说在全球范围内,百度的 iRAG 能力都是最领先的。我们还可以通过提示词,让爱因斯坦游遍全世界,比如悉尼歌剧院、复活节岛巨石阵、长城、鸟巢等等,鸟巢显然是在爱因斯坦去世后才建造的。

 

 

作为一项基础技术,iRAG 在很多领域都有着很好的应用空间。比如影视作品、漫画作品、连续画本、海报制作等,AI 生图都可以大幅降低大家的创作成本。

 

智能体即将迎来爆发点

今天,基础模型能力就绪,我们即将迎来 AI 应用的群星闪耀时刻。每一个应用都是一颗星,每一个应用都将成为改变世界的力量。那么,AI 应用从哪里来?到哪里去?

 

下面,我就讲讲两个大的 AI 应用方向:一个是智能体,另一个是产业应用。

 

我们认为,智能体是 AI 应用的最主流形态,即将迎来它的爆发点。今天,全球所有顶尖科技公司都很关注智能体,但像百度这样把智能体作为最重要战略方向的并不多。我认为,做智能体很像在 PC 时代做网站,或者是移动时代做自媒体账号。不同之处是智能体更像人、更智能,更像你的销售、你的客服、你的助理。

 

智能体可能会变成 AI 原生时代,内容、信息和服务的新载体。为什么这么说?一方面,做智能体的门槛足够低,谁都能上手,在百度的文心智能体平台上,甚至我们看到有 11 岁的小学生在创造智能体,然后通过搜索和其他渠道分发出去。另一方面,智能体的天花板又足够得高,可以做出功能非常强大的应用。多个智能体的协作,还可以解决更加复杂的问题。

 

下面我就给大家展示一下 4 种不同类型的智能体,包括公司类智能体,角色类智能体,工具类智能体和行业类智能体。

 

我们首先看第一类:公司类智能体。它就相当于 AI 时代的公司官网。传统官网具有的那些能力,比如公司介绍、产品图片和参数展示、线下门店位置等等,公司类智能体都有,而传统网站没有的主动推荐、及时响应和一对一服务能力,公司智能体也有。

 

我们以比亚迪的智能体为例与一个传统官网做个比较:

 

在百度搜索“比亚迪”就能直接唤起它的官方智能体。点击进入,它会先给你一段比亚迪品牌的简短介绍,这就类似于传统的官网。然后,你让它推荐一台性能均衡的车型。传统的官网不知道什么是性能均衡,所以没法给你推荐,而有了大模型理解能力的智能体,就可以很好地做出筛选、给出建议,并且展示产品的图片。

 

当你想比较一下看哪个值得买的时候,传统官网上要花费比较多时间,你得在不同商品详情页之间来回切换,非常麻烦。而智能体可以直接把多个车型的动力类型、车身尺寸、续航、加速性能放在一起并拉出表格,非常直观。如果你想进一步到线下门店去试驾怎么办?智能体可以直接调用地图帮你一键导航,直达目的地。

 

另外,还有一点是智能体与传统官网很不一样的,就是对最新信息或者最个性化问题的回答。传统的官网对外界市场信息变化往往不敏感,客服人员对于个性化的问题也难以给出令人满意的回答,所以通常只能做记录,再电话回访。而智能体可以利用大模型的理解、生成、逻辑、记忆四大能力和检索增强能力,快速从网上获取最新、最准确的消息,并在一秒钟之内就给出一个令人满意的答案。

 

不仅是比亚迪,像联想、沙宣、洋河这些企业,现在都已经拥有了自己的官方智能体。比起传统的官网,智能体既是你的品牌顾问又是你的金牌销售和客服,既专业又贴心,一对一的服务,大幅地提升了互动营销的效率。比亚迪的官方智能体上线后,销售线索转化率提升了 119%。联想 AIPC 智能体在 9 月份的互动率提升了 89%,销售线索转化率提升了 80%。

 

未来,公司官方智能体很可能会替代官网,成为最直接的面向消费者的界面。

 

我们再来看第二类:角色智能体。提到角色,大家很容易想到数字人。数字人有自己的人设、自己的知识库,这都是典型的智能体基本要素。 所以当智能体机制和多模态进行有效结合时,它就变成了一个有形象、有动作,并且动作可以跟语言可以匹配起来的数字人。

 

之前的数字人,短板是显而易见的。它们说话的声音、肢体动作、口型都非常机械、呆板。但是,在大模型加持下,数字人逐渐变成了高度拟人化的智能体,更聪明、有情感、有态度。他们可能是教育辅导老师,留学顾问,也可能是心理咨询师,私人健身教练等等。

 

今天, 你在百度搜索“教育辅导”这样的关键字,在搜索结果页中,就能看到这些数字人。他们不仅比我们以前看到的数字人更加自然、动作幅度更大,甚至在直播场景下,还可以说着说着在合适的时机停下,回复网友现场提出的问题。这需要大量的数据积累和直播互动规律的总结提炼。以前,我们不具备这样的能力。今天的数字人直播,很多情况下转化率已经超过了真人。

 

 

数字人的好处在于它的脚本完全是 AI 生成的。对于很多非常详细的数据,真人在直播的时候是记不住的,数字人完全没有问题。所以他的知识量,他的实际反应能力,很多时候已经超越了普通真人了。

 

我们非常相信,真人与虚拟人的交互,将创造巨大的产业价值和社会价值。这里的虚拟人,可能就是现实生活中一位名师的数字分身,也可能是一位名医、王牌律师和金牌销售的数字分身,而你从来没有像现在这样离他们如此之近。

 

我要讲的第三类智能体是工具类。工具类智能体其实是个热门赛道,笔灵 AI 写作、canva 设计助手、logo 生成器等都是典型的工具智能体。

 

百度文库和网盘联合开发了“自由画布”。

 

我们以行业分析师写研究报告作为例子,来给大家介绍一下自由画布。在很多人的认知中,行研报告就是图文结合的内容,但今天它可以是另一种形态,有传统的图文、表格,也有像发布会视频、电话会录音,组成一种更全的多模态报告。这在自由画布上,可以很好地实现。

 

我们打开百度 APP,搜索“智能写作”等关键词,就可以找到“自由画布”智能体,它可以帮你完成从找资料、到编辑、再到生成和分享的全部任务。不管你是内容的生产者还是消费者,都再也不用关心文件的格式是什么、我的手机或电脑有没有相关的应用、内存还够不够等等这些琐事了。

 

 

自由画布就是一个由文心多模态大模型加持的万能白板,它能很好地激发人们的无限灵感和创造力。因为自由画布,每个孩子都能成为故事的主角。因为自由画布,每个人都可以是漫画家、成为短视频导演。而且,这不是期货,而是立即可用的现货,是真正服务于创造的新质生产力!我们很快会正式上线。

 

第四类智能体, 我们称之为“行业智能体”,比如法律、医疗健康、金融、体育、旅行等等领域,都涌现出很多有用的智能体。

 

我们来看一个法律行业的智能体 ——法行宝。每个人工作生活中,都会遇到各类法律相关的问题,但不是每个人都能第一时间找到专业的律师来帮自己支招。这时,法行宝就很有用了。它是很受用户欢迎的智能体,在百度的平台上,已经回答了超过 1660 万个问题。

 

我们来看看它具体能做什么?

 

“我有一个朋友昨天被车撞了,现在躺在医院花了很多钱,报警后,警察说是对方全责,但对方不给赔偿,该怎么办?”

 

针对这个情况,法行宝给出了四个步骤的指导,先是保留相关证据,请求交管部门去调解,如果调解失败,可以再提起民事诉讼、申请法院的强制执行。可以继续咨询:医生说他还有三个月才能正常走路,交通事故赔偿怎么计算?这时,它会提供一个赔偿计算器,要求你补充关于赔偿责任、事故时间地点、伤者工作收入、伤残认定等详细信息,最后给出了一个事故造成的总损失和赔偿金计算。

 

如果想靠起诉状来拿回这笔赔偿金,法行宝还可以帮你写一封起诉状。如果你还想找真正的名牌律师咨询更加复杂的私人问题,法行宝还能够按照不同领域给你推荐知名律师。上线半年多以来,法行宝为 940 万多人提供了高效、可信赖的法律服务,成为了每个普通人专属的 AI 免费律师。

 

目前,文心智能体平台上,已经吸引了 15 万家企业和 80 多万名开发者参与,覆盖的应用场景非常非常多。

 

 

上面显示的就是文心智能体平台的 TOP100 智能体,是我们基于智能体的分发量、平均对话轮次、用户喜爱度等指标综合遴选出来的。有角色类的,像农民院士智能体;有工具类、行业类的智能体,更有职场、情感、娱乐等类型的智能体。

 

大模型的产业应用

 

前面我讲了智能体。下面我再讲一下大模型的产业应用。

 

大模型如何在产业落地?如何为千行百业的企业创造增量价值?这是我们一直在探索的问题。过去这一年半左右,我们看到在金融、能源、教育、招聘、公共服务等各个领域,大模型跟场景结合后,在降本和增效两个方面都取得了实实在在的成果。

 

百度智能云是我们构建智能产业生态的主要依托。目前在百度智能云的千帆大模型平台上,我们已经累计帮助用户精调了 3.3 万个大模型,开发出了 77 万个企业级应用,百度智能云已经拥有中国最大的大模型产业落地规模,一半以上的央国企以及很多很多的民营企业,都在联合百度智能云进行 AI 创新。

 

我们来看以下两个案例。

 

百度和百胜一直有良好合作,最早是在“门店选址评估”方面,我们帮助百胜完成了新增数千家门店的选址,大幅提升了选址质量和效率。在客服领域,我们提供了客服产品和大模型能力,服务百胜旗下多个品牌,尤其是解决了原来的客服机器人,难以识别客户真实意图、没法关联上下文的问题。

 

目前,我们的客服应用和解决方案,已经覆盖了百胜全线业务,大模型每天调用量的峰值达到数百万,客服机器人的“问题解决率”提升到了 90%。

 

在大模型时代,百胜还需要建设一个安全可信的大模型服务专区,来满足内部各品牌、各业务线的 AIGC 应用需求。因此,我们提供了千帆平台、文心 Speed 模型、基础云算力服务等给百胜,构建了完善优质的大模型底座能力,帮助百胜更加便捷地开发和部署 AI 应用。

 

除此之外,我们正在和百胜一起把 ASR、TTS、大模型和数字人的技术结合起来,共同验证在点餐屏上打造大模型点餐的能力。未来,我们还将继续合作,共同探索企业数字化、智能化转型等各种各样的可能性。

 

下个例子是互联网行业的代表。智联招聘是国内领先的招聘平台。招聘平台最主要的工作就是把合适的人匹配到合适的岗位上。过去这个工作大量地依靠人工来完成,人工地给岗位打标签、筛选海量的简历,、分析求职者对话,不仅费时费力,效果也难以保证,经常会有遗漏和错配。

 

百度和智联招聘合作,利用大模型重构了这个核心环节。通过自然语言对话,结合岗位的描述,迅速地为求职者和岗位画出精准的匹配画像,并且自动回答有关工作时长、薪资福利、工作地点这些求职者关心的问题,甚至进一步帮助安排面试。

 

目前,百度和智联招聘合作,已经成功沉淀出一系列提示词模板,并在数万条实际数据中得到了验证,人岗匹配的平均准确率高达 93%,而大模型使用的成本却下降了约 90%,为招聘行业带来了全新变革。让每一位求职者都能更轻松地找到心仪工作,让每一家企业都能更高效地获得所需人才。

 

今天,我在这里发布基于大模型的 100 大产业应用,它涵盖了制造、能源、交通、政务、金融、汽车、教育、互联网等众多行业,百度希望与更多合作伙伴和客户一起推动智能产业生态的建设,共同来加速国家“人工智能+”行动计划的落地。

 

发布这 100 大产业应用,其实也代表我们的认知和态度。百度不是要推出一个“超级应用”,而是要不断地帮助更多人、更多企业打造出数百万“超级有用”的应用。

 

无代码工具“秒哒”发布,只靠想法就能赚钱

 

今天,我们的确有条件让一行代码都看不懂的人具备程序员的能力,有让任何一个想法都能迅速地、低成本地变为现实的能力。当然,这需要工具,这个工具就是今天我为大家带来的 One  More Thing——秒哒!

 

一个不需要写代码就能够实现任意想法的软件,一个由大模型和智能体组成的全新的软件,我认为它是“迄今为止人类历史上最复杂的多智能体协作工具”,它包括无代码编程、多智能体协作以及规模化地调用各种的工具等能力。

 

秒哒是跟任何辅助代码生成工具是完全不一样的,因为它根本不需要你能看懂代码,所以看直播的朋友们,如果你是程序员,那你现在可以不看了,这个软件是给非程序员来用的。

 

我用一个例子来给大家展示一下秒哒的能力:

 

假设我们要为萝卜快跑开个新技术发布会。 我需要打造一个活动邀请系统,把邀请函分享给其他人,并且收集他们的想法和反馈。首先,上传了一个有大会时间地点主题的文件给秒哒。

 

接收到指令后,出现了 0 号智能体,就是小组长。它是整个智能体团队的核心,负责规划调度。它将这个任务拆解成了需求确定、内容生产、工程开发三个步骤,并且它会召唤各个智能体来协作完成任务。

 

首先召唤的是 1 号智能体,是策划智能体,负责活动邀请函的策划、设计解决方案。1 号智能体又将这个任务拆分成:核心需求、内容结构、开发需求、数据收集四个子任务。接下来,2 号智能体就被召唤出来了,即小编智能体,主要编辑邀请函中的所有文字和媒体内容。然后,3 号智能体出场,它是程序员智能体,负责写代码,来制作和部署网页,你完全不需要看懂代码侧的东西,你只要看得懂人话就行了。等它写完后,4 号智能体质检员出场了,它发现了一个 bug,所以把程序员智能体再叫回来,重新写、重新改代码,质检员智能体会利用反思能力,运行测试代码,看看代码是不是跑得通。

 

邀请函自动生成好了,但我觉得这个画风不够好看,想再换一个更有科技感的。输入想法后,程序员智能体会再写一次代码,给出一个新版本,这次换成了一个更有科技感的色调,有邀请函、会议日程,最后还附上了参会报名的界面,通过调用地图的 API,嘉宾就可以一键导航到达会场。最后,可以在后台看到,这条报名信息已经在统计表格中了。这样一个发布会的邀请系统,从你开始到最后结束,只需要 3 分钟,用户不用写一行代码,就可以完成。

 

整个过程体现了 整个过程体现了秒哒的三个特性:无代码编程、多智能体协作和多工具调用。无代码编程是由大模型直接生成代码,不需要人写一行代码,所以门槛大大降低了,每个人都可以去做,每个人都可上手;多智能体协作是基于文心大模型思考、规划等能力,实现对不同类型智能体的调度、编排,这个任务共有 5 个智能体协作完成;多工具调用,像刚才例子中调用了三个工具:网页检索工具、iRAG 和地图 API 调用。

 

除了上面展示的邀请系统,秒哒还可以做任意场景下的各种应用,应用的复杂度也会随着我们技术的提升不断提升。最早开始的时候,它只能做一些比较简单的编程,比如说两三百行代码,以后随着基础模型能力提升,以及秒哒本身技术能力的演进,它就可以做越来越多、越来越复杂的事情。

 

这意味着,你不需要去招募项目经理、设计人员、开发人员、测试人员等等,自己就可以指挥多个智能体来协同完成任务。也就是说,只要有想法,你就可以心想事成,我们将迎来一个前所未有的只靠想法就能赚钱的时代。

 

我想,AI 之所以被称为产业革命级的机会,就是因为它给社会经济带来了生产力的无限扩张。 秒哒让每一个人都能具备程序员的能力,会说话就能做出应用来,它对于人类工作效率的提升怎么说都不为过。现在你就可以去排队预约,我们明年第一季度发布秒哒,大家就可以试用了。

 

今天,我们用大约一个小时的时间,回顾了过去 24 个月,全球生成式 AI 变革带来的应用大爆发,也发布了文心 iRAG 和无代码秒哒两大技术,展示了智能体、产业应用两大应用方向的案例。可以看出,AI 应用的时代是真的来了!

 

当然,在人类信息技术变革的不同历史时期,应用出现的的样貌也不一样:在 PC 时期,它是一个个的软件和网站;在移动时期,它是一个个的 APP 和被关注的账号;在 AI 时代,应用最主要的形态就是智能体。随着大模型技术和能力的指数级跃迁,自然语言成为了这个时代最重要的编程语言。我们每一个人都能动手创造一个属于自己、也属于他人的 AI 应用,或者智能体。

 

我是软件工程师出身,国外有一种说法叫“软件吞噬世界”。但我认为,这个世界不应该被吞噬,而应该被创造。AI 时代,应用创造世界。所以请大家和我一起见证:AI applications creating the world。

 

2024-11-12 17:025645

评论 3 条评论

发布
用户头像
幻觉现象的研究论文:


《A Survey on Hallucination in Large Language Models》(arXiv):全面概述大模型生成幻觉的问题,包括成因和检测手段。
《Hallucination is Inevitable: An Innate Limitation of Large Language Models》(arXiv):提出幻觉问题可能是大模型结构中的根本性限制。
幻觉检测与解决方法:


《Detecting Hallucinations in Large Language Models Using Semantic Entropy》(Nature):提出了一种基于语义熵的新方法,用于检测大模型的幻觉输出。
行业的担忧:


多篇论文(如 IEEE 的《AI Hallucinations: A Misnomer Worth Clarifying》)讨论了幻觉在不同应用场景(医疗、教育等)中的影响。

李总,说话前得做点调查。还有小编这些鼓吹手。
展开
2024-11-15 16:39 · 北京
回复
用户头像
要点脸吧
2024-11-15 14:13 · 浙江
回复
用户头像
2024-11-12 17:10 · 北京
回复
没有更多了

缓冲区溢出

C语言与CPP编程

c++ C语言 缓冲区 堆栈溢出

我们一起学程序-五子棋

叫练

Java 多线程 游戏 websocket

甲方日常 7

句子

工作 随笔杂谈 日常

oeasy教您玩转linux010203显示logo

o

Pod安装神策SDK报错Remote branch v2.1.3 not found in upstream origin

凌宇之蓝

ios 小程序flutter, 跨平台 CocoaPods pod React Native

【高并发】要想学好并发编程,关键是要理解这三个核心问题

冰河

写作 多线程 高并发 同步 分工

Elasticsearch初步认识

枫林

Java elasticsearch ES

Docker 安装和简单使用

枫林

Docker

联盟:互联网时代的人才变革

非著名程序员

互联网 个人成长 人才 人才发展 突破圈层,个体崛起

C语言与C++常见面试题

C语言与CPP编程

c++ 面试 C语言

AtmoicXXX与AtmoicXXXArray源码分析

Darren

源码 内存布局 CAS java 并发 AtmoicXXX

终端传感了解吗?18个知识点为你扫盲

华为云开发者联盟

IoT 信息化 传感器 传输协议 无线传输器

最通俗易懂的 Redis 架构模式详解

哈喽沃德先生

redis 架构模式 redis集群 redis哨兵 redis主从

再爆安全漏洞,这次轮到Jackson了,竟由阿里云上报

YourBatman

Jackson Fastjson 安全漏洞 CVE-2020-24616

Zeppelin SDK :Flink 平台建设的基石

Apache Flink

flink

数据分析之伯克森谬误:颜值和性格真成反比吗

KAMI

人生 数据分析 数据

在Rust里面嵌入python代码

lipi

Python rust

指针变量的传值和传址

C语言与CPP编程

c++ 指针 C语言

闲聊胡扯

C语言与CPP编程

随笔杂谈

微服务下数据一致性的几种实现方式

xcbeyond

微服务 BASE理论 数据一致性

浮点数比较的精度问题

C语言与CPP编程

c c++

Docker -快速安装Elasticsearch

枫林

深挖 Redis 6.0 源码—— SDS

yanglbme

redis 源码 源码分析

面试官问:Spring Boot中Tomcat是怎么启动的

Java小咖秀

tomcat 面试 springboot

架构师训练营0期 第十二周作业

WW

你真的了解 Base64 吗

hepingfly

Java base64 编码

百度被绿了?

程序员生活志

百度 互联网 头条

C/C++函数指针与指针函数

C语言与CPP编程

c++ C语言 函数指针

Flink检查点存在的性能影响-16

小知识点

scala 大数据 flink

关于MySQL参数,这些你要知道

Simon

MySQL 参数

mPaas 厂商push不通排查指南

阿里云金融线TAM SRE专家服务团队

android push

李彦宏:大模型幻觉基本消除,这是只靠想法就能赚钱的时代_AI&大模型_褚杏娟_InfoQ精选文章