目前,Agent(智能体)已经成为当前人工智能领域的热门话题。在很多产品和业务上,Agent 都具有广泛的应用前景,不少人认为 Agent 会是大模型未来的入口。在企业内部,Agent 可以用于复杂的任务场景,帮助企业尽可能提高劳动生产力。但是,由于 Agent 多以 Chatbot 形式出现,因此很多人对 Agent 与 Chatbot 之间的差异、 Agent 的技术发展等并不清楚。
在日前的 InfoQ 《极客有约》XAICon直播中,我们邀请了 DeepWisdom(MetaGPT)创始人兼 CEO 吴承霖、腾讯 PCG 大模型中台 Agent 技术负责人陈浩蓝,一同探讨 Agent 的定义、技术挑战、数据合成、智力测试以及落地应用等问题。对话部分亮点如下:
Agent 不一定要模拟人类行为,可以是基于大型语言模型的辅助工具;
合成大量数据以训练 Agent 的成本非常高,这可能是未来研究的一个重要方向;
AI Agent 与 Chatbot 在处理复杂任务和协作方面有所不同,Agent 更复杂且不一定基于对话;
Agent 实际上和人类的分工相似,但并不完全相同;
具身机器人是一个未被充分探索的领域,尽管它具有吸引力,但仍需要证明其商业化可行性。
以下为访谈实录,为方便读者阅读,我们在不改变嘉宾原意上进行了整理编辑。完整视频可查看:
https://www.infoq.cn/video/ev3E7P0dTAGAAwMbVgxQ
在 8 月 18-19 日将于上海举办的 AICon 全球人工智能开发与应用大会上,吴承霖老师将出品【AI Agent技术突破与应用】专题,深入探讨 AI Agent 的当前技术现状与发展趋势,揭示其在各行业中的广泛应用和未来潜力。陈浩蓝老师也将在专题论坛上带来分享《多智能体技术在开放剧情扮演玩法中的探索》。大会演讲议题已上线 90%,查看大会日程解锁更多精彩议题:https://aicon.infoq.cn/2024/shanghai/schedule
Agent 与 Chatbot 有什么不同
InfoQ:在两位老师眼中,Agent 的定义是什么?与 Chatbot 有什么不一样吗?
陈浩蓝:在 LLM 出现之前,我们对 Agent 有一个定义:能够观测环境的输入,对其进行规划、进行输出。在 LLM 出现之后,LLM 对不同输入的泛化能力和其自身的先验知识有了显著提升,使得 Agent 的工作可以在此基础上进一步展开。
对于 Chatbot,我认为它和 Agent 是两个正交的维度。Agent 是一种技术解决方案,而 Chatbot 则更像是一种产品形态。这实际上是两个不同层面的概念。Agent 的狭义定义是,能够接收输入、观察并规划动作,对工具的使用有记忆。而更加广义的定义是,任何以 LLM 为核心组件构建的工作流程都可以被称为 Agent。Agent 不一定需要完美模拟人类行为。人脑的架构只是自然选择中的一个不错选项,但基于新的底层架构,如神经网络,未来可能会出现更优的思考组织架构。例如,100 年前我们可能认为今天的高科技是飞行汽车,但实际上却是微信支付和美团外卖。
吴承霖:我和我的一个同事进行了一次长期讨论,我们得出了一个非常有趣的结论:Agent 和人类不是同一物种,它们的形态和人类不同,主要原因是智能体是共享心智,所有智能体拥有共同的心智模型,这可以类比柏拉图表征,就是说它们拥有相同的内心世界。这种共享心智的概念与《星际迷航》中的 Borg 种族非常相似,Borg 种族是共享心智但能独立存在。因此,我们在 MetaGPT 的第一版代码中设计了一个并行参数,允许智能体并行执行,这个参数名为 N-Borg,即定义几个 borg 来执行任务。实际上,Agent 作为共享心智的个体,是非常有趣的。
从另一个角度来看,许多人认为在大语言模型上添加一些东西就可以构成 Agent,这个定义相当粗糙。我们需要添加什么?是一段提示词、一个函数还是其他东西?根据 OpenAI GPTs 的定义,可能大部分人认为只需要添加一段提示词,甚至这些提示词可以自动生成。在我们已经看到的智能体应用中,也有添加一个或多个函数的情况,这算不算是一个 Agent?我认为这些做法可能会使 Agent 的定义变得更加模糊。因为我们进行这些尝试的目的是为了解决大语言模型的一些问题,因此才会有这样的定义。
我们发现,Agent 的主要研究方向包括四个方面。首先是记忆。语言模型本身没有任何记忆,它与人类的记忆结构完全不同。人类的记忆分为工作记忆、短期记忆和长期记忆,而在语言模型中,我们只能得到工作记忆的粗略等价物,短期记忆和长期记忆基本上是无法实现的。这是因为从原理上讲,现有的语言模型是对现有世界所有知识的压缩,它只能做一件事情,很难进行除压缩外的其他大部分增量工作。
人脑则是通过一系列非常特殊的机制形成记忆。一般来说,长期记忆的形成需要两周到两个月的时间,短期记忆的形成所需时间更少。但无论是长期记忆还是短期记忆,它们都是以分布式的方式存在于我们的大脑中,这意味着我们的神经元本身是存算一体的。
现在的 Agent 要实现记忆,大家可能会自然地想到 RAG。然而,RAG 与人类的记忆有很大不同,因为人的记忆是有基础的可靠性保障。益于神经元连接的强度保障,一旦某些东西被强行记住,人们就很难或不会忘记。当然,人的记忆并非完全可靠,但它依然比现有 Agent 的 RAG 方式更为可靠。根据人类以往对 AI 的经验,只有当 Agent 能够广泛超越人类的记忆能力时,我们才会认为它是可靠的。
陈浩蓝:我对吴老师的观点深有同感。目前我们设计 Agent 时,往往认为输入的 prompt 就是记忆。但实际上,一件事不一定非得以文字形式存在,它可能是一个模糊的概念、一个念头,或者是我们神经元中的一组参数。我认为,当前的 Agent 只是目前技术水平下,在 LLM 工具上临时增加的辅助工具,它不一定是最终形态的智能体。
吴承霖:Andrej Karpathy 在最近发布的推特中提出,计算机 2.0 的未来可能由一个语言模型直接接管并执行所有逻辑。我对他的观点既有认同也有保留。因为目前代码逻辑的整体效率可能比语言模型的权重逻辑更高,我们可以将权重视为另一种形式的代码,并且能够执行一些较为模糊的推理。
从这个角度来看,目前的智能体更擅长控制计算机的底层操作,如果要达到极致,自然语言编程可能是一个必经之路,但我们先不讨论这个话题。目前,智能体还需要解决一系列关键问题。首先是多步推理,究竟是应该由智能体来解决,还是直接包含在大语言模型内?这个问题尚未被充分讨论。外部流传的 OpenAI 的 Q*、Claude Sonnet 等用于数据合成的迭代方法,或多或少会用到多步推理的技巧。
人类的话,无论什么样的人都有推理过程,这个过程可长可短。一般来说,我们会将其描述为一系列的推理算法。在推理过程中,我们可能会考虑对下一个状态的预测、对下一个动作的预测以及对价值的预测,这些问题在整个行业中尚未被充分讨论和解决。
可能八年前的 AlphaGo 和一系列相关工作解决了一部分特定子领域的问题,但我们认为,从 AlphaGo 的推理到相对比较通用的状态可能需要两年时间,可能要到明年的下半年这些工作才会被完整地推进。当这些工作完全完成时,我们会发现有一些大的进步,比如幻觉问题可能会得到大幅度解决。
我们认为 Foundation Agent 很可能在明年年底诞生。它可能会有许多特性。首先,它可能会理解大部分应用、能够执行人类能力范围内的大部分工作;其次,它将拥有一个不同于大语言模型的心智模型,使其能够基于权重对现实世界的任务进行推理。当然,它可能还会有许多其他特性,比如自带工具。
但在这一过程中,我们会遇到许多问题,比如如何在足够丰富、真实的世界数据上进行训练,这可能是所有问题中最关键的。总之,我们认为可能会在一年半内出现一个 Foundation Agent,它可能是我们真正称之为 Agent 起点的抽象。
陈浩蓝:Foundation Agent 的具体定义是什么?
吴承霖:我们所说的 Foundation Agent,更多是对其能力的一个描述,它能够理解当前的现实世界,包括屏幕中的特定应用和相关的交互形式,并且能够理解和交互现实世界、物理规律、三维条件与时间等因素混合起来的事件。更准确地说,它可以应用于许多不同的场景,例如,将来可能有许多智能体存在于云端,但它可以在云端操作一些虚拟机,如虚拟手机或虚拟 PC;可以让一些化学实验室、工业实验室自动化运行。
但在这个过程中会有许多问题,其中最关键的是数据问题。例如,这个过程中有哪些通用的数据收集方式,这是所有人绕不开的问题。
陈浩蓝:如果我们这个行业真正出现了一个 Foundation Agent,我怀疑它可能没有一个复杂的 Agent 架构,它就是一个极其强大的多模态模型,类似于大脑中的神经元。它可能不是按照达尔文进化论描述的那样,由不同模块按某种逻辑组织在一起然后共同工作,而是一团能够接受不同输入的神经元,中间有复杂的参数,在大量数据的冲刷下,最终能够搜索出一套网络结构,然后再进行各个部分的分区。
数据问题确实是特别关键的。如果有人问 Agent 技术发展面临的最大挑战是什么,我认为就是数据问题。我们现在所做的一切都是对理想情况的一个近似。我们这个世界及其复杂程度,远非 AlphaGo 那样的 19x19 世界可比,我们这个世界缺乏这样的规则,这也导致我们给模型的输入是不够的,我们只能用人类能够抽象出来的方式提供足够多且高质量的样本。
例如,我们认为一个 Agent 需要使用工具,我们就会给 Agent 添加一个使用工具的组件,并训练这个组件在需要的时候启动。但一个更好的方式是,让 Agent 在现实模拟器中自行运行 100 万遍,然后自己学会使用工具。这种深度推理的样本在我们的现实世界中太少了,我们不得不使用一些原始的样本训练模型,并在这个过程中让模型自己去制备推理逻辑更复杂的样本,以增强自己的能力。
合成数据带来的成本问题
InfoQ:合成一些对现实世界认知之外的、更高级的数据,目前大家很难在技术上实现。
吴承霖:核心数据是所有人都在追求的一件事,但它也会带来巨大的开销。一个核心问题是,如果你能合成 3 倍、10 倍甚至 30 倍的数据,那么最终的倍率是多少、迭代的次数是多少?并且,随着数据倍率的增加,所需成本也在等比例增加。假设架构不变,即仍然依赖 Transformer 进行多层 GPT-like 架构的构建,这实际上是不经济的。
尽管我们可以合成一些数据,但它带来的边际效益并不显著,反而推高了整体成本。以目前的数据来看,在 Claude Sonnet 3.5 版本中,其合成比例已经非常高,如果有多达 30 倍的合成数据,那么成本也要乘以 30,训练成本急剧上升。
这就引出了另一个话题:现在的语言模型架构合理吗?或者说高效吗?与人脑相比,它一点都不高效,因为人脑看一次样本就可以学会,而现在语言模型需要大量的数据来喂养。在 ICL(In Context Learning,上下文学习)的背景下,提供一个样本可能会有一些效果,但这似乎并不是它的正规学习方式。
从功耗角度讲,一般来说,人脑的整体功耗大概是 GPT 的一万倍到十万倍,因此现在 GPT-like 模型的整体效能并不高。如何降低训练成本,使其能够合成更多比例的数据,可能是之后最大的研究方向。OpenAI 在去年发布 GPT-4 时就明确表示要进行这项工作,但现在能做好的团队并不多。
目前来说,使模型能够自我提升的方法没有上限,但不可避免的是,这些方法都很昂贵,随着迭代次数的增加,整体成本也在增加。去年底到今年初,绝大部分团队只能迭代三次。我们注意到,在过去的一两个月里,一些团队已经有能迭代十次以上的方法,更多的次数就是通过自己左脚踩右脚实现自我提升的。我们目前还没有看到上限。但不可避免的问题是,所有方法都非常昂贵,迭代次数越多、合成数据越多,整体成本就会比之前高一个数量级到两个数量级。
陈浩蓝:我理解,迭代的本质上可以说是将人类大部分的知识压缩在文字里面,通过反复琢磨这些文字,最后“悟”了。它“悟”的来源实际上是所有的文字,但我不确定人类所有的文献语料加起来是否能够实现完全的智能,我觉得这条路可能也是有极限的。
吴承霖:对,Ilya 在 2015 年的观点确实很明确,他认为压缩即智能。然而,他对智能的定义更多地侧重于推理能力,并没有包括记忆和长期交互。因此,实际上大家对“智能”这个词的定义可能会有所偏差。
从纯粹的推理能力来看,目前 GPT-4 和 Claude 3 opus 的整体智力水平大约在 101 左右,而国人的平均智力水平在 106 左右,它们尚未超过平均智力水平。这里需要从两个角度来看:一是知识,一是智力,两者完全不同。知识可以通过记忆获得,但智力则需要通过推理逻辑来实现。如果问大模型何时能大规模应用,关键在于它何时能达到智力的临界变化点,或者记忆的临界变化点,这两个变化点可能都很关键。例如,如果它的智力达到 130,你问它大部分问题它都能立即回答,不需要依赖记忆,这时它可以大规模应用,我们也不需要构建一些复杂的架构。这可能是一个五年左右会发生的事情。
另外一方面,人的记忆分为内隐记忆与外显记忆,那是否有其他的方式能够进行记忆的代偿?实际上是有的,过去一年中,一些团队已经取得了显著的成果,但他们开发的机制可能与人类大脑的机制不同。因此,我认为,硅基生命的最终存在形式大概率与人类的存在形式不同。
Agent 为何表现比单个大模型更亮眼
InfoQ:那么现在落地上的一些应用,有哪些让两位印象深刻的地方?
吴承霖 :现在业界主要有四个大的方向:
语言模型:例如,ChatGPT 通过订阅服务获得了 20 亿美元的 ARR(年度经常性收入),这在人类商业历史上极为罕见,它可能是 SaaS 领域增长最快的一家。要在这个赛道中取得成功,最核心的要求是成为稳定领先的第一名,这样才能有显著的品牌影响力。
代码:在这个领域,GitHub Copilot 已经取得了显著的影响力和商业收入。面向开发者的服务是一个地域性场景,目前在中国还没有很有影响力的公司。在北美,GitHub Copilot 的 ARR 已经超过了 1 亿美元。
泛娱乐:这个方向可以分为游戏和非游戏两个市场,两者之间的区别较大。游戏方面,如陪玩等服务;非游戏方面,如通过简短文本生成小说、漫画、视频等内容。泛娱乐市场非常大,像抖音等具有很大的影响力和商业收入。
具身机器人:国内有许多优秀的具身机器人公司,但这个领域仍然是一个未被充分探索的、需要证明商业化可行性的方向,尽管它非常具有吸引力。
此外,还有许多其他市场方向,如可视化编程的 Agent 平台、基础设施和中间件等。
陈浩蓝:Agent 本身可能只是大模型的一个过渡或中间状态,随着底层模型能力和视觉模型的逐步完善,它们最终可能做的是相同的事情、实现相同的目标。
InfoQ:前段时间吴恩达分享自己用 GPT-3.5 做的一个 Agent,整体的工作流表现要高于用 GPT-4。这个原因是什么?
吴承霖 :从流程工程的角度看,MataGPT 本身是一个大型的流程工程,我们会使用 SOP(标准操作程序)来定义这些流程。SOP 的本质是最佳实践流程,我们有许多典型的 SOP,如敏捷、迭代、瀑布等,中间会有许多具体的 SOP 细分。许多领先公司也有大量的 SOP,例如国内 SOP 最多的公司可能有上千个 SOP 来确保流程的顺畅运行。
流程工程本质上与 SOP 是一致的,我们用相同的方法对待人和智能体。由于智能体现有的局限性,我们的 SOP 需要更加精确,因为人的记忆有上下文,但智能体需要精心设计其上下文,以确保它能准确理解你的问题。特别是现在的 Agent 或 LLM 通常是无状态的,它们不会记住任何东西,所有信息都需要你提供给它们。
OpenAI 也有许多实现,例如 OpenAI 的助手就是其 API 模块的一部分。但据我所知,之前 Lang Chain 和 Llama Index 的测评认为,助手模块只是一个高资源消耗的 RAG 模块,只是尽可能将 RAG 推向极限。然而,即使 RAG 达到极限,也很难满足我们的所有需求。
例如,在某些特定场景的问题上,我们脑海中可能想到了对应的场景,但我们不会明确提及这些场景。这意味着 RAG 或其他简单的召回形式,包括现在流行的主动召回形式,可能很难解决现有问题。当然,一些公司和团队正在开发外置记忆模块,但这些工作尚未证明一个通用记忆模块功能的普适性。
陈浩蓝:刚刚提到的人和大模型最大的差别在于,人能够进行 one-shot learning(单样本学习),而大模型则需要 few-shot learning(小样本学习),这也不一定总是正确的。例如,如果我们需要开发一个新特性,即使是人脑可能也无法立即理解它,需要一些交互来形成最终的定义。比如,产品经理说“要做一个特性,这个特性就是跟这个一模一样”,人脑对这句话的理解也可能不够充分,同样需要做一些交互来给出最终定义。
吴恩达通过结合 Agent 和 GPT-3.5 能够获得比 GPT-4 更好的效果,这可能更多地归功于问题阐释上的提升。例如,在解决特定问题时,人类会有相应的 SOP,但如果仅仅是一次调用,那不一定是大模型的问题,有可能是人类语言协议的问题。一句话可能无法清楚地表达你想要什么,但通过反复沟通或遵循一套 SOP 进行沟通,实际上最终能够达到你想要的结果。
吴承霖 :我有一些补充。我们在面对许多问题时会觉得难以解决,但通过逐级分解,会发现问题的难度在逐级降低。为什么问题难度可以可以通过逐级分解而降低?这是一个很有意思的话题。一个问题中的原子化问题是什么?提出原子化问题需要什么样的技能?这些可能可以依赖语言模型或人脑来完成。这样的机制对当前的 Transformer 架构是有意义的。当前堆叠出的语言模型的推理步长是固定的,超过某个推理复杂度它就无法继续推理。但如果我们能把一个复杂度为 10 的任务拆分成 k 个复杂度为 7 的任务,再拆分成 m 个复杂度为 5 的任务,逐级降低复杂度,这个任务就会变得可解。
人实际上也是用类似的方式处理问题的。在软件开发中,有产品经理、架构师、工程师等不同角色,他们都在拆解问题与解决拆解问题。我们最终可以总结为:输出实际上改变了内部权重,或者说更改了它的上下文,使它的输出分布发生了变化。但目前还没有一个成体系的理论来说明难度降低了多少,以及最小的可解问题是什么。
陈浩蓝:问题的拆解是一个非常有前景的方向。只要我们能够把问题无限细拆,最终它一定能够被简化并解决。
我们之前讨论过一个问题,即 Agent 落地会遇到哪些挑战?例如,在一个 To B 或离线场景下,我们可以大量进行这种拆解和多步推理,最终获得一个相对较好的结果。当然,这样的推理成本是较高的。像吴老师做的 MetaGPT,每个代码都还有推理预算的限制,这也反映了我们在设计一个极其复杂的 Agent 时,应用的成本是需要充分考虑的。
我专门查了 YC 2024 年入营项目中 Agent 项目的分布,发现大部分都是 To B 的,个人陪伴和娱乐是在一个非常窄的角落。我们最开始设想一个 Agent 有特别复杂的架构、具有超强的智能,但是我们发现很多成功的产品,如 CharacterAI、海外的 Talkie 等,它们的 Agent 架构非常简单。这不是说大家没办法把它做得特别智能,而是最后在用户响应耗时和开销之间大家做了平衡和选择,这其实也是合理的。
所以,我觉得在一些追求 AGI 的场景,我们可以把 Agent 设计得特别复杂,让它不断地推理。但对于一些在线服务、娱乐场景,它可以简单展现大模型和 Agent 的能力,同样也能较好地满足用户需求。
InfoQ:更复杂带来的延迟性会不会变高?如何解决?
陈浩蓝:我认为这还是取决于任务。以吴老师的产品(软件公司多智能体)为例,它的响应时间虽然比说一句话要长,但比我自己开发肯定是要短。在现在的技术架构下,未来的推理速度有几个数量级的提升都不成问题,可能更多要考虑的是在不同问题场景下应用不同架构的复杂度。
吴承霖 :它的推理速度实际上是在显著加快的。Groq 的推理速度可能是 OpenAI 的 30 倍左右。这些问题都有特定的解决方案,现在的问题放在一年以后可能已经不再是问题了。
这里也没有明确的定义 Multi-Agent。Multi-Agent 最初是一个用来构建框架的基点,但我们从来没有精确的定义过,但是常见的定义是否准确吗?比如:每个角色有不同的提示词、不同的工具,它需要不同的模型吗?不同的记忆模块吗?其中还需要探究更多细节。但回过头看,它的速度和用户体验并不是一成不变的,一年以后大概率单跳的速度会提升几倍到十倍,这意味着现在能接受一跳的时间,明年你就能接受 3 跳到 10 跳的时间。这意味着等待可能不会成为一个特殊的问题。
如果我们要把人的职业和 Agent 做映射的话,以 OpenAI 在 2022 年的定义,大约有 20%的职业会完全被语言模型影响,80%的职业会受到影响。随着 Agent 能力、语言模型能力越来越强,这个 20%和 80%的比例会快速变化,这意味着它可能不仅仅是用户体验的问题,而是市场最终选择的问题。
Multi-Agent 与人类分工有什么异同
InfoQ:如何从组织角度定义多智能体?
吴承霖 :在 OpenAI 的调研中,人类职业大约有 2,000 种。这 2000 种职业是从大约 400 年前开始逐渐发展的,所有的一切可能源自亚当·斯密的分工理论。人类文明进入工业社会后,不可避免地要摆脱农耕形态并进行分工,以提升整体的社会效率,这时职业才大规模产生。之后,我们才发现,一个组织需要有不同的职业来形成一个最优结构,以获得最大效率。
Agent 实际上和人类的分工相似,但并不完全相同。
在西方社会,很多很强的个体公司可能会模糊所有的职业,比如所有人都叫工程师。更进一步,我们可以看到像 Google、微软、Amazon 等公司,每一家的拓扑结构都完全不一样。例如,Google 可能更多会采用 OKR 的形式进行 360 度的绩效评估,而 Amazon 则是一个非常典型的以 To B 为起点的紧密小团队结构。
每家公司的组织结构分工、职业上升路径可能完全不一样,但这并不意味着其中有任何一家不合理,因为他们面对的社会形态和商业环境迫使他们形成了这些结构。因此,Agent 大概率也会形成很多结构,这些结构不一定是我们预定义的,最终是因为市场的需要才会让这些结构存在。
陈浩蓝:如何定义 Agent?定义 Multi-Agent?实际上是我们做出的一种“不差”的选择,即参考人类社会来定义。为什么这是一个不差的选择?因为我们知道历史上有其他分工方式,但这些方式已被淘汰,而现在的分工方式能在人与人之间正常运作。此外我们充分了解每一个角色,例如一个产品经理写出的 PRD(产品需求文档)是什么样的,这样可以很好地评估对应的工作样本,了解工作是否在正常开展。
当然,可能还有另一种更高效的分工方式。这种更高效的分工可能是由一个 Agent 负责编写头文件,其他 Agent 负责随机生成代码,这也是一种分工形式,但它尚未经过验证,且没有一种能够批量、廉价找到优质样本的方法。因此,我认为这还是基于现状做出的一种不差的妥协。回到刚才的话题,Agent 随着外部环境和内在能力的差异,可能会形成其他更优的分工方式,但这种更优的分工方式仍然需要一个上帝模型或世界模型给予足够多、足够快的反馈,以使组织架构能够迭代。
例如,吴老师在游戏中做了一些 Agent,我认为这还挺令人兴奋的,因为我们可以认为游戏本身就是一个小的世界模型(围棋最小,现实世界最大,游戏介于两者之间),那在游戏规则下,我们实际上可以充分验证其环境和奖励是否能很好地刺激 Agent 协作,最终在游戏内部形成一种分工。
当然,在游戏中单纯执行动作的话,已经有大量能做得很好的工作了。但在游戏中进行社交、聊天、探索,这些方面仍然值得研究。假设我们现在这个世界是一个性能更好的 AI 模拟出来的,那么现在人类的分工也是一种 Multi-Agent 的分工。如果我们能够模拟出一个小的环境,我们就可以逐步探索新的 Multi-Agent 组织形式。
InfoQ:Multi-Agent 能否借鉴 MOE 的思路?
吴承霖 :MOE(混合专家模型)主要用于语言模型内部的路由。MOE 的工作现在做得非常多,有很多人在做记忆时会采用 MOE + LoRA 的方式。那么,Multi-Agent 是否能够使用类似 MOE 的方式?实际上,很多公司已经这样做了,也有人验证了它的效果是很好的。例如,Samba-CoE v0.3 验证了几个开源模型组合在一起能够超越之前的最优模型。
当然,也有很多其他类似思路的模型,虽然做得并不完美,但我们倾向于认为这是退化成为机器学习的 Ensemble 形式。Ensemble 是一个经过充分讨论的话题,在这之前可能有数千篇到数万篇文章都是围绕这个话题展开的,可能有更多可参考的工作。
陈浩蓝:我稍微补充一点。我认为 Multi-Agent 和 MOE 还有一些差别。MOE 更多是逻辑上的组合,而 Multi-Agent 或 workflow 还包括时序上的组合。例如,Agent A 完成推理后,可能会将信息传递给 Agent B 进行下一步推理;而 MOE 则是每次激活特定的专家,让他们进行一轮推理。因此,我认为,至少在目前的架构中,这两个并不是严格等效的。
但如果有人开发出“Recurrent” MOE,可能会创造出一个相当于序列的 MOE,这样每次推理就会在时序上有了先后依赖关系,最终获得一个更好的结果。
Agent 的多样应用
InfoQ:单一 Agent 与多智能体的应用场景有什么不一样吗?
吴承霖 :之前阿里数学竞赛有一个 AI 赛道,第二名和第三名都是 MetaGPT 的贡献者,他们都是通过多智能体赢得比赛的。多智能体在许多不同的比赛中都展现出了非凡的效果,包括我们参与或关注的一些比赛中,绝大部分排名靠前的架构都是多智能体。这主要是因为智能体能带来工具、动作、记忆等不同维度上的细分,相当于他们有了记忆,有了特定的先验行为,随之发展出了一系列不同的行为,并成为他们的经验。
InfoQ:两位目前觉得最好或印象深刻的 Agent 落地案例是什么?
吴承霖:这取决于 Agent 的定义是什么。如果说现在企业内部的 private search(私有搜索)是一个 Agent,那么它的定义会比较宽泛。许多企业内部有 private search,做得也很成功,还可以做搜索总结、比较精细的调研,甚至可以出财报、review 法律合同等。在一定意义上,我觉得这确实是一个 Agent,北美有很多这类做 private search 和比较偏 SaaS search 的公司。
所以说,核心是我们如何定义 Agent。假如说应用大语言模型获得了生意和融资,我们认为它就是成功的话,那么这个定义可能太宽泛了。但如果从一年后的 Foundation Agent 节点回过头来看,这个概念可能又过于狭隘。
陈浩蓝:我觉得企业内的应用可能比大家说得要更细、更激进一些,但又比吴老师说的更保守一些。
就我观察,我们公司内部的 AI 应用还是铺得比较开的,各个场景都在寻找结合点。但是,我觉得很多场景其实也不是所谓的 AI 原生应用,我很少见到仅用单个语言模型来处理的,基本上都是一个 Agent 或 Multi-Agent,还有像混元 workflow 编排可以把整个流水线通过配置的方式生成;在业务上,像腾讯会议的会议纪要、文档处理等都做了各种各样的尝试,还有浏览器里的文件、网页阅读助手等,这些还是比较激进的。大家也都希望能够探索到哪些是用户真正需要的功能、哪些是伪需求。
我个人印象比较深刻的是,我们现在有的广告素材生成其实就是由一个 Agent 来做的。可能跟开源工作或行业内宣传得比较多有关,大家认为 Agent 很多时候对应的是一个 bot,但其实也有很多离线的 workflow。例如,我们要生成一个广告素材,首先找到这个商品的核心卖点,结合核心卖点和一些大数据产生视频素材的脚本,然后输出一些文案,有了文案后可以用大模型产生对应的分镜脚本,有了分镜脚本后再产生关联原始素材,有了这些后再进一步进行视频的合成及自动审核。这个工作是离线的,相对比较复杂,实际上也确实给业务带来了一些提升。
InfoQ:人形机器人是否可以认为是一个 Agent,给它内置大模型和知识库,然后可以通过互联网摄像头、音频进行自我学习和迭代?
吴承霖 :Robot 一般来说分为四个流派:强化学习、模仿学习、RFM( Robotics Foundation Model)和 PRL(程序强化学习),第三和第四个流派基本上都要用 VLM(视觉语言模型)或 LLM(大型语言模型)来做,也是目前最主流的流派。所以基本上现在具身机器人都是在大语言模型之上去做的。
当然,也有很多直接用 VLM+LLM 训练的,比如说直接加一个 PPO(Proximal Policy Optimization,近端策略优化),也有人想再加上 DPO(Differentiable Policy Optimization,可微策略优化)。这使得训练语料在文本上会比较好构造,但在视觉环境,尤其是三维的视觉环境下,PPO 会更简单一些。
InfoQ:多智能的社会属性是可以从大模型单一架构中涌现出来,还是需要更多的符号注入去强化?
吴承霖 :这其实是 Neuro-symbolic 方向的问题。吴恩达在前一段时间发表了一个博客,其中他提到 Neuro-symbolic 是未来最有希望的方向之一。这个观点肯定没错,在过去几十年 Neuro-symbolic 一直是非常主流的学派。
图灵机诞生之后,编程也变得真正可行,我们现在做的语言模型和智能体也只是让它能够更好地去做模糊推理。之前的编程我们可能更多会认为是基于集合的精确推理,因为计算机本质上就只能做集合的事情。模糊推理和精准推理结合在一起,才能真正形成智能。我们不是很确定最后需要多少符号,但从整个业界的认识看,我们认为 Neuro-symbolic 是非常有希望的一个方向,也可能是学术上会出大量论文的一个方向。
陈浩蓝:稍微补充一下,我认为短期内,符号计算的方向基于 Multi-Agent 的框架会更主流一些,长期的话应该还是从 LLM 的单一架构中涌现出来,然后再加上世界模型。
吴承霖:这里我要提出一个很有意思的观点,我认为 LLM 是涌现不出物理规则的。现在的物理公式不是自己搜出来的,而是一个人为定义的东西,是那种虚幻引擎里面编辑器的配置,我觉得 LLM 可能很难在底层方面写出来这些东西。
陈浩蓝:但我觉得如果一个生物的 LLM 能够写出来,那没有理由一个跟它同构的另一个架构写不出来。
吴承霖 :生物的 LLM 经过了充分的推理,然后完成了论文的输出,所以它需要一个标准的流程,我们称为 critical thinking。这个过程大概率语言模型也得走一遍。它的智商能到一个很高值,但同样也得按生物的逻辑从某一个点开始往后进行推理,这个推理过程存在,但很难发生在它的网络内部。
陈浩蓝:我之所以得出之前的观点,其实也借鉴了推荐系统或者传统的对话系统发展的路线。最开始可能是一个比较简单的工作,后来人类或者相关研究者会往里加入各种各样的先验知识,然后让它短期能够获得比较大的提升。随着整体算力的增加,最终它又会被千亿级的 LLM 替代之前整个 chatbot 的各种精细设计。我感觉随着 LLM 的继续发展,Multi-Agent 架构虽然不是绝对的符号计算或大模型涌现,但是它的倾向性会逐步由后者向前者转换。
活动推荐
8 月 18-19 日,AICon 全球人工智能开发与应用大会将在上海举办。来自字节跳动、华为、阿里巴巴、微软亚洲研究院、智源研究院、上海人工智能实验室、蔚来汽车、小红书、零一万物等头部企业及研究机构的 60+ 资深专家,将带来 AI 和大模型超全落地场景与最佳实践分享,帮助与会者提升技术视野、获得有价值的实践指导。大会火热报名中,7 月 31 日前可以享受 9 折优惠,单张门票节省 480 元(原价 4800 元),详情可联系票务经理 13269078023 咨询。
评论