Agent 还没出圈，落地先有了“阻力”：进入平台期，智力能否独立担事？

作者｜华卫

去年出圈的 AutoGPT，让 AI Agent 来到大家的视线中并迅速爆火，大家都对 Agent 抱有极高的想象力与期待值。那么，Agent 现在到底有多大的应用潜能？企业要如何抓住？同时在具体的落地实践方面，也有不少悬而未决的挑战。

带着这些问题，InfoQ《极客有约》特别邀请了阅文集团 AIGC 技术负责人马宇峰担任主持人，与机器姬 CTO&具身智能一百零八讲主讲人刘智勇、华为云 aPaaS 首席架构师陈星亮，一同探讨 AI Agent 的当前能力、应用落地情况以及未来发展趋势。部分亮点如下：

Agent 不仅仅是一个玩具，而可以改变现实世界。
在企业场景中有效利用 Agent，合理选择业务场景非常重要。
具身智能领域最大的挑战在于操作层面，瓶颈在于如何泛化地执行物理世界中的各种操作。
未来使用 Agent 和大模型将成为企业员工需要掌握的技能。
人类仍然拥有最终的评价权和评估权，这种能力是大模型无论如何发展都无法达到的。
具身 AGI 的到来会为人类社会带来新的篇章，即从碳基生命到硅基生命的延续。

以下为访谈实录，经编辑。完整视频参看：

https://www.infoq.cn/video/DOPpG6NjCHcJKDzCsAFT

AI Agent 当前的能力

马宇峰：首先要谈的就是 AI Agent 现阶段的能力，大家现在是如何应用 AI Agent 的？具体落地场景有哪些？

刘智勇：最近大家可能已经注意到了一个名为“Figure”的机器人，演示中，工作人员向该机器人表达了饥饿感之后，Figure 成功地将苹果递给了他；这一过程展示了 AI Agent 在物理世界中进行任务推理、规划并最终转化为实际行动的能力。在具身智能领域，AI Agent 的应用场景非常广泛，AI Agent 可以大致分为以下四个方面。

工业场景：在工厂中，具身智能机器人可以应用于 3C 生产线或汽车总装线，提高生产效率和自动化水平。
商业服务场景：在商业环境中，具身智能机器人可以提供接待、讲解、导览、巡逻和配送服务，改善客户体验，提升服务质量。
家庭场景：在家庭环境中，具身智能机器人可以承担清洁服务或家务工作，减轻人们的负担，提高生活质量。
火星建设：在未来的火星探索和建设中，具身智能机器人有望发挥重要作用，帮助人类在恶劣的外星环境中进行建设和研究。

对于这些应用场景，具身智能都展现出了巨大的潜力和希望，为未来的技术发展和应用提供了广阔的前景。

陈星亮：针对企业场景进行 AI Agent 能力创新时，多数是从 IT 场景开始的，因为该场景拥有较为完善的信息化基础。在这一过程中，我们遵循两个主要原则：一是先易后难，我们首先从普遍性场景开始，然后逐步向专业化场景演进；二是保障效果，无论开发哪种场景的 AI 应用，都必须确保其有效性。

办公和编码领域被广泛认为是 AI Agent 应用的切入点，因为这些场景相对通用，容易实现。随着技术的进步，我们将 AI Agent 的应用延伸到更复杂的场景，例如：

办公领域：AI Agent 可以用于自动生成会议纪要或设计文档，这些任务比简单的代码生成或文本创作更具挑战性，需要更深层次的场景理解和更高级的语言处理能力。
销售或服务领域：AI Agent 可以用于合同审核或法律条文的辅助生成，这要求 AI Agent 不仅要理解法律术语，还要能够处理复杂的逻辑关系。
网络设备监控：在对网络设备进行监控的基础上，AI Agent 可以执行自动巡检任务。这要求 AI Agent 不仅要处理专业数据，还要能够理解并应用信息化积累的知识。

马宇峰：大家首次接触到 AI Agent 大概是在什么时候？从本质上讲，AI Agent 与大模型的区别究竟体现在哪些场景上？最核心的区别是什么？

陈星亮：Agent 这个概念，实际上在大模型出现之前就已经存在了。在进行 IT 系统集成或设计某些自动化流程时，其实已经有 Agent 这一层了，尤其是在设备与外界交互的环节，而那时还没有将大模型技术整合进来以实现更广泛的泛化能力和生成式能力。

大模型技术引入后，起初我们并没有考虑将其应用于设备控制或高度交互性的 IT 系统交互中，而主要看中其在创作和生成内容方面的潜力。之前我们在设备代理方面的工作与 AI Agent 的概念思路颇为相似，只是随着大模型的加入，AI Agent 的能力和应用场景都发生了变化。当我们将这些结合起来后，认识到了 AI Agent 的真正面貌。因此，如果仅从 IT 系统的能力角度来看，AI Agent 这个概念并不神秘，不过是通过引入大模型为 AI Agent 带来了更多能力，从而丰富了其功能。

刘智勇：无论是 ChatGPT 还是 Agent、具身智能，本质上都是在以下三个方面进行发展。

文本世界：在文本领域，大语言模型展现出了强大的生成和理解能力，这主要体现在 ChatGPT 等应用中。
数字世界：数字世界中，我们需要利用规划、循环和反思的控制机制，实现任务从开始到结束的全流程控制，并调用数字世界里的外部工具进行执行。
物理世界：物理世界中，Agent 的能力落地体现在具身智能上，即通过具身智能技术将规划形成的任务序列转化为物理世界中的实际操作。

马宇峰：我分享一下第一次接触 Agent 的经历，去年夏天 OpenAI 开发了一项名为“Function Call”的能力，虽然看起来仍然是文本的输入和输出，但当函数作为一个字符串被输出并被精确调用时，我确实看到了 Agent 的不同之处。以前我们认为创作和创意不确定性是大语言模型最人性化的特征，但同时它们也有机器的一面，能够在有限的范围内唤醒某些函数。这项能力让我意识到 Agent 应该被独立考虑，其围绕工具使用、规划和执行的能力，可以帮助大模型结合现实世界中的数字和物理能力，形成一个更完整、更通用的解决方案。这是我对 Agent 概念的一次认知冲击。

然而，随着时间的推移，我发现 Function Call 可能并不像我最初想象的那么好。它演示的技能是查询天气，虽然可以很好地执行，但许多场景要复杂得多，可能不只有 10 个或 20 个函数可供调用，会出现完全不确定的函数，下一步该执行哪个函数也会是未知的。不过，Agent 的主流能力，如浏览器的唤起、搜索引擎的查询结果以及一些生成能力的唤起，确实有效地让它从概念走向实际。当然，在实际应用过程中，我们也发现了许多不确定因素，但 Agent 的能力已经让我感到惊讶，它不仅仅是一个玩具，而可以改变现实世界。

回到 Agent 的适用场景，我分享一下个人自身在探索中使用的直观感受。使用 Agent 能力可以批量生成自媒体文章，也可以像模像样地讲一个故事，从创建角色、制定纲到将角色和情节融合，再逐步生成内容，它的成文速度非常快，也有一些优点，比如生成过程中，可以将角色单独抽象出来去形成可视化的元素，可以使用多个角色和情节引导来发展内容片段，且在逻辑框架内是可控的。

但深入研究后我们发现另一个问题：Agent 输出的内容，还是没有达到人类所能达到的逻辑性、创意性相结合。业内也做了很多尝试，这方面却似乎一直停留在中等或中上水平，整体表现平庸，所以这确实是长期困扰我们的问题。虽然我们最初认为 Agent 很有用，但在商业化和变现能力上似乎没有那么强。

马宇峰：想问一下陈老师，在代码和办公场景，Agent 可以从哪些方面提升效率？有哪些 bad case？

陈星亮：我先谈谈 Agent 给一些稳定场景带来的效率提升作用，如设计文档生成和合同中法律文本的生成等。在一些应用场景相对明确、法律条文引用也相对模式化的特定领域，如可靠性设计或安全威胁设计，Agent 的表现在业务用户看来感知和体验都非常好，准确度也相当高，显著提升了工作效率。目前，我们也在将 Agent 应用于网络设备巡检等生产场景。尽管巡检过程中会遇到各种意想不到的问题，但对于那些已有案例库和解决方式库的巡检，Agent 都能够发挥作用，并帮助提高巡检效率、简化人力的工作。

然而，也有一些不尽如人意的地方。Agent 刚推出时，大家对它寄予厚望，导致在选择应用场景时没有过多限制，业务团队提出了许多要求较高的场景，想要用 Agent 去解决未知的问题。这些要求的实际难度很大，而 Agent 在处理未知问题时的能力有限。因此，如果要在企业场景中有效利用 Agent，合理选择业务场景非常重要。否则，Agent 的效果可能不会达到预期，甚至可能非常差。

马宇峰：如果人类都做不到的事情，期望 Agent 达到超越人类的水平是非常困难的。相反，那些人类已经重复做了很多遍且已经规范化的工作，确实可以将人类的判断力解放出来，完全交给 Agent 来自动化处理。在具身智能的 Agent 应用上，哪些方面是可行的？可能存在什么挑战？

刘智勇：首先，具身智能的输入需求依赖于视觉语言模型，这意味着需要处理整个环境的三维数据信息，而不仅仅是二维图像。它需要的输入包括深度数据、RGB 图像等，可能还要结合触觉、反馈力以及编码器数据等，这些数据共同构成了具身智能的全面输入。因此，在数据输入的方式上，具身智能与传统 Agent 存在显著差异，这些差异带来了巨大的挑战。

其次，在数字世界的 Agent 中，无论是什么类型的 Function Call，基本上都是可执行的动作，操作层面通常不会遇到问题。然而，具身智能中存在一个可供性问题，即是否能够真正执行某个动作。尽管存在这些挑战，但也有一系列方法可以解决这些问题，如具备泛化能力的视觉语言模型、迭代细化的机制、自我反思的机制等。目前来说，具身智能领域最大的挑战在于操作层面，即具身操作。感知、决策和规划虽然重要，但真正的瓶颈在于如何可泛化地地执行物理世界中的各种操作。

马宇峰：Agent 目前的发展状况如何？是否已经达到了一个平台期，还是仍然有很大的提升空间？是否依赖于某些特定的背景？

我认为 Agent 主要依赖于大模型的 Function Call 能力，需要准确地识别出当前调用哪个模型来完成当前任务，并提供相应的结果，以便大模型进行下一步操作。而瓶颈可能在于读取上下文的长度，上下文长度决定了能够识别多少个函数。Agent 在执行过程中受限于场景，只能在有限的函数中进行选择，其执行也不完全精确；如果执行不精确，就需要获取更多的环境信息或反馈信息来执行函数，过程中可能会出错。Agent 是一个精妙但不够鲁棒的系统，如果它返回到上一级并根据错误信息重新执行，可能会带来更大的资源消耗和时间延迟。

陈星亮：在企业场景中实施 Agent 时，我们首先需要考虑的是技术的可实现性。在挑选场景的过程中，就要考察技术是否可行；一旦场景确定，接下来需要考虑的是如何提高 Function Call 的准确度，如果准确度不够高，需探索其他工程手段来提升 API 的识别准确率，甚至在语义理解之后通过额外的工程能力进行调整、校验生成的 API 并通过查询方式进行补充。企业面临的最大挑战之一就是需要重复性地进行这类工作。目前我们也在探索长序列处理、记忆的短、长期存储以及上下文空间的扩展等技术，以期在未来实现更多的技术突破。

在具身智能领域，企业场景中也在逐渐引入多模态技术，尤其是当与操作技术领域（OTA）的设备关联时。多模态技术的引入包括传统的视觉识别等，将进一步增加系统的复杂性。如果大模型在这些领域取得显著进展，那么在企业 IT 融合场景中的工程难度将大大减少。目前，我们在工程实践中仍需进行大量技术工作，这些工作的管理复杂性甚至超过了传统的微服务架构。

我相信，随着技术的进步，未来将有很大的空间来改进现有的工程能力，减少人工干预，让大模型承担更多的工作。无论是让大模型自行处理，还是让 Agent 框架沉淀出更多稳定的框架性技术，都是未来技术发展的趋势。我对大模型在未来的迭代和改进抱有很高的期待，相信它们将带来更好的效果，并减轻当前工程化实践中的一些负担。

刘智勇：从阶段性的角度来看，我们认为具身智能目前处于技术起步期，未来的发展空间仍然非常广阔。之所以称之为技术起步期，是因为目前还存在三个方面的挑战：

任务类型的泛化性：这涉及到 Agent 能否理解各种类型的指令，并能够完成具体的规划而不产生幻觉，抑制 Agent 在理解上的偏差，对齐人类意图的二义性和潜在偏好，确保其能够准确执行任务。
环境的泛化性：即 Agent 快速与环境对齐，对齐环境的规律、动态性和随机性。
操作的泛化性：这是更为复杂的挑战，涉及如何利用多种数据源采集更多的线下数据，并据此训练出能够泛化到不同情境的具身操作模型，目前行业中还没有一个非常好的解决方案。

从这三个方面的挑战中，我们看到了未来的发展机会。尽管目前还存在许多问题需要解决，但这同时也是推动技术进步的动力。

观众提问：是否可以认为大模型做好了就不需要 Agent 了呢？

刘智勇：大语言模型的主要功能是处理和生成文本，核心在于将文本信息进行向量化处理，并通过 Transformer 架构以及监督学习机制，实现技术上的范式转变。这些技术基础的迭代，再结合大量的数据和强大的算力，促成了 ChatGPT 等大语言模型的诞生，它们在文本生成和回复方面表现出色。

尽管大语言模型在文本领域取得了显著的成就，但本质上只具备基于零样本提示词的文本回复的能力，而不具备执行实际任务的能力。这意味着，无论大模型在文本处理上多么先进，它们仍然需要 Agent 的介入来实现从文本到行动的转变和全流程的处理。

因此，大模型和 Agent 是两个不同的概念，前者专长于文本交互，而后者则涉及到任务的执行和落地能力。简而言之，大语言模型缺乏将文本回复转化为实际行动的能力，是典型的缸中之脑。

马宇峰：如果大语言模型发展到某个瓶颈无法提升，那也可以像两个人类合作思考能更高效地完成工作一样，使用两个大模型实际上可以进一步提升当前水平。哪怕提升的幅度不大，但考虑到大模型的较高的基础表现，即便是小幅提升也可能带来非常显著的回报，并且能够有效地增强现有能力。至于这些能力是否会直接集成到大语言模型中，我认为在相当长的一段时间内，我们仍然可以将大语言模型视为一个智能体，主要从智能逐步思考的角度来使用它。

陈星亮：aPaaS 主要是基于行业内现有的资产或经验，实现程度化代码开发，降低开发门槛，通过拖拉拽的方式快速构建简单的应用程序。随着大语言模型代码生成能力的出现，零/低代码平台受到了较大的冲击。曾经有观点认为，大模型的出现可能会使得低代码或零代码的开发方式变得不再必要。实际上，我认为情况并不会如此。

零/低代码平台可以有效地融合大语言模型的能力，让大模型直接参与代码生成。以前需要通过拖拉拽来实现的功能，现在可以通过自然语言处理（NLP）的方式进行交互，提供更直观、友好的用户体验，并帮助理解业务用户原始的语意，以更好地生成低代码或零代码应用。我认为零/低代码平台和大模型之间更多的是一种合作关系。低代码平台上已经积累了大量的业务资产，而大模型可以将其作为插件调用，两者结合将发挥出更大的潜力。

AI Agent 的落地挑战

马宇峰：在大语言模型不提升或通用大语言模型更新周期较长的情况下，如何利用现有工具和能力取得良好成果？有哪些方法或策略？

尽管当前 AI Agent 面临许多瓶颈和困境，限制了其应用范围，但仍有一些方法可以提升其驱动能力，如可以通过垂直领域的强化训练、特殊训练技术或更巧妙的方法，在不提升大语言模型本身能力的前提下改善 Agent 的表现。Agent 在当前大语言模型框架下的表现，不仅取决于模型本身，还受到其他多个环节的影响。即便大语言模型不是限制因素，其他环节的优化也能提升整体 Agent 的效果。以 Kimi 为例，它之所以能够脱颖而出，可能确实在大模型的某些方面做了针对性强化，但重要的是它对文档类型的解析能力有效提升了实际操作中的使用体验。Kimi 能够在处理长文档时进行分块，并采用迭代检索的方式输出答案，这大大增强了 Agent 在特定场景下的应用体验。

我相信，即使在大语言模型能力不变的情况下，只要充分提升检索能力，就能显著提高最终的可用性和准确率。很多时候未能获得准确答案，是因为没有找到正确的信息片段。如果知识库足够丰富，片段足够多，那么作为一个智能整合的搜索引擎，Agent 将具有巨大的应用潜力。在大语言模型能力不完整的情况下，只要把某个小模型、小工具或阶段（如检索阶段）做得足够好，也能显著提升 Agent 的整体表现。

刘智勇：要提升 AI Agent 的能力，首先需要充分挖掘并利用长期记忆，通过 RGBD 摄像头读取的数据，结合视频语言模型，形成丰富的语义信息。在特定场景中，这些语义信息往往是重复出现的元素，关键在于如何有效地保存信息，为后续的规划提供坚实的基础。随着时间的推移，语义信息不断积累，AI Agent 的长期记忆能力将变得更加强大。

其次，进行迭代细化是提升 AI Agent 能力的另一个关键点，这意味着需要不断结合当前的模糊指令和新获得的语义信息，形成新的提示词。通过不断的迭代询问，AI Agent 能够逐步细化和精确化其理解和响应，通过不断反思，最终达到更加精准的结果。

陈星亮：企业内部考虑事务时主要关注两点，都与数据紧密相关。首先是文档处理的问题，在企业中，非结构化文档往往是承载信息的主体，处理这些文档不仅要识别文档类型，还包括对复杂文档的解析，如图文混排和包含复杂表格的文档。这些内容在原有的基础上，需要对文档类型识别的范围进行扩展，但在企业内部对这种复杂文档的解析仍是一个较大的挑战。

其次关于原有数据的利用问题，特别是在生产场景中，一般都具备专业领域的背景。以设备巡检为例，它与设备的领域知识密切相关，这种情况单靠企业自身的私域数据积累可能不够，需要在行业内去做垂域模型。目前，我们期望通过 Agent 技术的发展，能够让更多企业在通用场景中体会到 Agent 带来的好处，从而愿意将自己内部的结构化数据进行区分，将企业机密数据与可对外开放的数据分离，并逐步开放一些行业公共数据，这将有助于构建每个行业的垂直领域模型，为未来企业场景和 Agent 的发展带来巨大的好处。

马宇峰：初期部署 Agent 的成本是否高昂？是否能够带来相应的收益？能否实现成本的回收和价值回报？

陈星亮：企业部署 Agent 时，成本问题是一个必须考虑的重要因素，并且需要结合业务团队的期望以及对目标的评估来共同考量。初期企业主要探索通用场景时，成本通常是较低的。随着业务场景的成熟，以及越来越多的用户和业务团队成员开始使用这些场景，成本就会开始上升。特别是当场景全面开放并开始构建更多场景时，就可能需要多套模型和版本，模型也需要不断地做飞轮进行迭代和优化，成本可能会指数级增长。

因此，在正式对外放开并大规模使用 Agent 之前，与业务团队进行充分沟通和期望管理是非常重要的，需要让业务团队明白，业务场景真正对外开放并吸引大量用户使用后将会涉及到哪些成本。同时，业务团队也需要评估这些成熟场景能够带来的价值，如对客户满意度和内部效率提升的贡献。当业务团队获得这些信息并进行综合评价后，他们对预算和投入的决策将会更加明智，这样的过程有助于确保 Agent 部署的成本得到合理评估和控制，并带来相应的价值回报。

刘智勇：Agent 部署的成本考量包括云端的调用成本、机器人本体的计算成本以及整体的部署成本这三个主要方面。

云端数据成本。这涉及调用模型的频率，如果实时观察环境中的语义信息，就需要频繁且快速地调用模型，这样会耗费大量的计算资源，从而产生高额成本。因此，必须考虑调用频次和计算资源消耗的问题，实现具身智能体和自身限制的对齐。
机器人本体成本。在具身智能场景中，机器人本体通常需要具备一定的计算能力。为了使机器人能够在不同场景中应用，无论是商业、工业还是家庭环境，都希望能够在端侧部署大模型，尤其是本地部署，而这在没有高端 GPU 和显寸的支持的条件下尤为关键。
部署成本。将设备分布式放置在不同地方会产生额外的成本，此外还需要考虑是否能够通过启发式方法或其他手段，让设备快速启动并投入使用，这也是降低部署成本的一个重要方面。

马宇峰：部署成本确实是一个值得讨论的话题。在实验性质的探索阶段，对时间的考量可能并不严格，但一旦考虑到响应速度，比如每秒需要处理多少个 token 来执行动作，成本问题就变得尤为突出。因为模型需要很长时间才能完成一个 Agent 的输出，这意味着直接使用大模型进行推理的成本和时间的耗费都是非常高的。对此，我个人建议可以利用一些框架，如 Dify 或 Coze，它们可以帮助构建 Agent 框架，并提供了丰富的工具来逐步检查生产和输出的结果。

企业部署 Agent 时，可以先验证整个流程是否可行，并确保其能带来业务价值。之后，可以考虑用一些专门训练的小模型来替代流程中的关键部分，以降低成本。初期可以利用现有的资源进行探索，长期来看，通过特定化的方式进行优化和部署可以平衡成本。

观众：在部署 Agent 时可能会遇到哪些安全方面的问题？目前是否有一些比较成熟的工具可以用于保障 Agent 的安全性？同时，是否可以认为 Agent 的安全性主要取决于其底层大模型的安全性？

陈星亮：首先，Agent 的安全性并不仅仅由大模型决定，模型安全只是一部分，还涉及应用安全和数据安全。对企业来说，对安全性的投入无论多少都不为过。无论在引入模型时，还是实际使用过程中，包括 Agent 框架都需要进行安全检查。例如，使用开源框架组件时需要进行安全审查，运行时需要对模型的输入输出内容进行监控，以及对应用框架进行访问控制，防止调用越权等。

在企业原有的安全体系内构建 Agent 的安全性会更好一些，在华为云内部，我们基于 AI 原生应用引擎等平台，当 Agent 对外提供服务或与模型进行交互时，利用内部原有的数据安全、应用安全和内容安全方面的技术，对内容进行检查和过滤。Agent 的安全性需要在现有基础上，结合 Agent 之间的技术组件交互以及场景特有的安全要求来综合考虑和实施。

观众：面对多智能体协同框架的开源与闭源发展，应该如何选择合适的技术路线和框架，以减少试错过程并确保系统不会被行业不断的更新迭代所淘汰？

陈星亮：我认为应该分开考虑。对于 Agent 的开发框架，目前开源的选择比较多，都有很多可用的资源。鉴于 Agent 领域本身正在快速发展，选一个团队成员熟悉且操作顺手的框架，然后跟随其发展进行使用。而对于 Agent 的运行时环境，进入企业生产环境后，我建议使用闭源解决方案。理想的状态是，在企业现有的基础设施基础上进行必要改造，以便将 Agent 的运行时环境纳入统一管理和运维体系中，确保运行时的稳定性和安全性。

刘智勇：我更倾向于观察一个技术方案是否展现出成熟和收敛的迹象，如果开始趋于稳定和收敛，那可能是着手开展相关工作的更适宜时机；如果尚未成熟，还在快速迭代和变化之中，那可能面临开发速度跟不上开源社区更新速度的问题。

马宇峰：在选择开闭源路线时，实际上需要根据所处的发展阶段来决定。不管选择何种路线，实际投入使用比纠结于何时开始尝试和如何减少错误更为关键。毕竟，随着时间的推移，技术本身会更新迭代，这些更新往往也会朝着更优化的方向发展，对业务发展带来积极的价值。

AI Agent 的未来前瞻

马宇峰：从长远来看，企业中 Agent 的落地是否会对某些现有的职业造成冲击？比如普通员工、现有商业模式、提供 API 服务的 SaaS 公司以及供应商等。Agent 的普及和应用会带来怎样的影响？

陈星亮：对于员工而言，随着技术的发展，未来使用 Agent 和大模型将成为他们需要掌握的技能，尤其是提示词。员工至少需要学会如何使用 Agent，就像现在进行零代码应用开发一样，将其作为日常办公工具的一部分。对于企业，尤其是传统 SaaS 公司来说，Agent 和大模型的引入已成为明显趋势。一些大型 SaaS 公司，已经开始将大模型集成到平台中，将 Agent 框架和集成外部大模型的能力嵌入到二次开发和应用中。传统 SaaS 公司如果不加入到这个发展潮流中，可能会影响产品体验，建议一定要去拥抱大模型和 Agent。

刘智勇：我从两个不同的角度来探讨 Agent 的运用及其对未来的影响。对于企业而言，利用大模型或 Agent 的主要目的是提升工作效率和减少对人工的依赖。有时员工的工作效率确实无法与 Agent 相比，特别是在一些技术性任务上，初级工程师的编码能力可能远不及代码 Agent。对于工程师来说，积极利用 Agent 不仅是为了保持个人竞争力，也是为了适应未来工作的需求。Agent 可以作为一个强大的工具，帮助工程师完成更高效和更复杂的任务。

而具身智能特别是人形机器人，预计它们对未来世界的冲击将是巨大的，会在商业、工业和家庭三个领域中体现出来。在商业领域，许多展示和演示类的工作岗位可能会被智能机器人所取代，因为它们可能表现得更好。在工业场景中，很多重复性或技术性工作实际上可以由机器人来完成，提高生产效率和安全性。在家庭环境中，未来也可能会出现更多类型的服务机器人，帮助处理日常家务。同时，我们也应保持谨慎乐观的态度，认识到技术发展和应用普及的速度可能没有想象中那么快。机器人和 Agent 的发展旨在辅助人类，使我们能够专注于更有价值和创造性的工作。

马宇峰：关于 Agent 如何影响我们的现实世界，尤其是在工作场景中，我的感觉是需要先拥抱这些变化，然后学会适应和改变。现在可能是小企业创业的绝佳时机，因为借助大语言模型这样的“万能胶水”，不再需要像以前那样协调大量资源来进行服务能力的交付，只需要尝试不同的组合，就可以高效地为客户提供解决方案。这样，小企业的服务能力从完全定制化转变为可以大规模扩展的模式，这对于二线市场可能是一个深远的改变。

观众：英伟达使用虚拟环境训练智能体机器人的方法是否可以拓展到所有应用场景？虚拟环境数据能在多大程度上替代现实场景数据？

刘智勇：我们实际上已经使用过英伟达的 Isaac Gym 来训练智能体，主要是进行强化学习的训练。这种方法涉及合成不同的仿真环境，并基于此来进行强化学习的训练。这种方法的主要优势是数据是免费的，但存在一个从仿真到现实（sim-to-real）的转换 gap。在应用拓展方面，特别是在本地运动（locomotion）即行走部分，使用强化学习和虚拟环境的训练模式效果是不错的。对于一些操作类的任务，也有一些积极的应用特点。但对于更广泛的操作任务，可能更倾向于使用采集到的真实数据，并利用 transformer 架构来训练大型的 transformer 模型。因为在英伟达的仿真环境中，很多物理引擎的细微数据是无法被完美仿真的，如一些非常精细的触觉反馈。

马宇峰：在内容行业，我们对 AI 技术的发展有着深刻的感受。有人认为，Sora 的成功是因为学习到了物理世界的真实性，但随后有人指出，Sora 可能只是选择了一些优秀的片段来展示。Sora 的训练采用了虚幻引擎，但这种方法还是单一的，并不一定能够真正理解物理世界。这与刘老师提到的英伟达的反馈机制可能有所不同，它们的输入输出机制存在差异。目前，Sora 虽然理念上很先进，但实际上还没有达到通过虚拟化的输入输出来获得真实物理引擎的效果，可能是因为模型的参数规模不够大、训练数据不够丰富，或者受虚拟数据本身的限制，还需要进一步深入观察和研究。

观众：请介绍一下目前单智能体落地的情况，以及它与公司当前技术架构的结合方式。多智能体的具体架构是如何建设的？

陈星亮：在原有的技术架构体系中，目前大家使用的较多的是 Web 应用、微服务，有时还会使用函数技术体系。我们可以将 Agent 和大模型引入进来，先进行隔离，用于特定的场景。这些场景必然会与现有的微服务体系或函数体系进行交互。这时可以采用集成的方式进行，而不是直接使用大模型的 Function Call 方式。这样实施难度会小一些，而且也能让 Agent 发挥作用。当技术团队逐渐掌握了 Agent 和大模型这套技术，就可以开始取代一些现有的应用。这样的过渡不仅有利于架构的演进，也有助于技术团队的能力培养。

马宇峰：多智能体协同是一个复杂而富有挑战的领域。项目中，多智能体的协同运作被分解为不同的角色，如项目管理员、编码者、产品经理等，各自承担不同的职责。然而，如果单个智能体（单 Agent）的运作还没有完全搞明白，就急于发展到多智能体（多 Agent）协同，其实是存在很大风险的。

在实际应用中，比较常见的模式是有两个智能体协同工作，一个负责生产，一个负责评估，但目前还没有看到这种模式带来特别显著的提升。举一个例子，情感陪伴场景中有大量的对话交互，如果一个人与一个 IP 进行对话，输入输出的比例可能不太理想，引入第三个智能体会带来信息量的显著提升，这在满足用户情感需求和具体任务需求时非常有用。

接下来，我们继续研讨 AI Agent 的未来。目前，AI Agent 的进展可能在技术行业内比较流行，但还没有真正“出圈”。当 AI Agent 被充分使用时，哪个场景会是理想中的未来？

刘智勇：图灵测试是一个经典测试，用于评估机器是否具备人类智能，即在背靠背的情况下，判断对方是计算机还是人类。而我曾经提出过一个“面对面测试”，特别适用于人形机器人，尤其是高端的女性机器人。测试中，高端女性仿真机器人被指派到一个地点，与 10 位单身男性分别进行相亲，如果其中有 9 位男性最终发出了下一次约会的邀请，该机器人就通过了测试。这不仅考验机器人是否能够理解并执行任务，还考验它是否能够与人进行有效沟通和交流。如果机器人能够在这种面对面的互动中展现出高度的智能和亲和力，那么无论在用户交互、情感表达、行动能力还是外观颜值上，其都达到了非常高的标准。

通过这样的测试，机器人将展现出巨大的商业价值。因为当机器人在面对面互动中具有很好的亲和力时，就可以在各种职业领域中得到应用，包括教师、律师、前台接待、演艺、直播等各个领域。我认为，这种更泛化的 Agent 通过“相亲测试”的事件是一个标志性的里程碑，意味着 AI Agent 的能力和人机交互能力已经达到全新的水平。

马宇峰：Agent 未来的发展趋势将是怎样的？当它们发展到一个成熟的阶段后，将会呈现出什么样的形态？

陈星亮：在企业场景中，Agent 目前主要扮演辅助角色。我们正在考虑的是，Agent 是否能够从围绕特定场景服务转变为围绕特定人员服务。随着这一趋势的逐步发展，我们可以设想，未来某些人的工作是否会逐渐被 Agent 取代，这可以在分工上进行明确划分。我认为，当 Agent 真正能够在企业中提升效率并降低成本时，就达到了真正的成熟阶段。

马宇峰：Agent 落地过程中可能会遇到一些难以实现的场景，这就需要我们在筛选场景和逻辑执行上进行深入的思考，最终的理想状态是以人的方式来看待 Agent：作为智能体能够取代当前人类的多少工作。Agent 概念并非是大模型出现后才产生的，但确实又是一直存在的。智能体这个词，最常见的体现可能就是人类自己。人类可以作为 Agent 选择任务难度的度量，同时也可以作为 Agent 的驱动方向。

如果有一天 Agent 真的取代了所有的工作，人类应该干什么？我想，这时人类最重要的价值就是发挥自己的需求。Agent 服务的目标永远是人本身，人类有需求，才会有 Agent 去做这件事情。人类是需求的发起方，Agent 只是去满足需求的一方。因此，人类仍然拥有最终的评价权和评估权，这种能力是大模型无论如何发展都无法达到的，除非 Agent 拥有像人一样的肉身，有自己的激素欲望和生理限制。

陈星亮：首先，我认为 Agent 的未来是充满无限可能的。无论是在各个行业，还是在 ToB 或 ToC 的体系中，人类社会有各式各样的场景需要 Agent 来提供支撑，因此它的发展前景是极其广阔的。其次，我相信 Agent 将是一个多样化的存在，无论是在技术实现还是在业务场景的应用上。目前 Agent 技术的发展呈现出百家争鸣的局面，这对技术行业来说是一件好事，意味着有更多的行业场景愿意尝试采用 Agent，并进行投资。在这样的投入下，技术可以快速发展，进而更好地探索未知领域。

最后，在 Agent 向前发展的过程中，我们也需要正视现实情况。当前无论大模型还是 Agent 框架本身的发展，下一步的方向似乎还不是很清晰。我相信未来还会有更多新技术不断涌现，将推动 Agent 的发展，使企业和个人的诉求和场景得以实现。

刘智勇：从具身智能的角度来看，商业落地是一个重要议题。目前，Agent 或具身智能体主要扮演的是辅助角色。以它们当前的智力水平，还不能承担替代型的角色。它们能够提升生产力，但并不能真正改变生产关系。我们应该从最大程度提升人的生产力的角度出发去寻找落地场景，这是比较实际和可行的视野。

另外是从更宏观的层面来看待 Agent 和具身智能的发展，这与 AGI 息息相关。在经历了 Transformer 模型、ChatGPT 以及机器人的 Transformer 模型等重要时刻之后，我们可能在不久的将来迎来 AGI 的时代。具身 AGI 的到来会为人类社会带来新的篇章，即从碳基生命到硅基生命的延续。在具身智能领域，如果具有 AGI 的通用人形机器人能够实现，那么在某种程度上将实现仿生或永生的概念。

创作场景

Agent 还没出圈，落地先有了“阻力”：进入平台期，智力能否独立担事？

AI Agent 当前的能力

AI Agent 的落地挑战

AI Agent 的未来前瞻