智能体的未来：一家公司只需要一个 CEO？_大数据_AICon 全球人工智能开发与应用大会

微软、谷歌、百度等科技大厂都在全面发力 AI Agent，全球许多大企业也都在使用 AI Agent。那么，AI Agent 到底能为企业带来什么新机遇？它在实际应用中会遇到哪些挑战？

近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了数势科技 AI 负责人李飞、小米大模型负责人栾剑和京东技术专家王译堃，在 AICon 全球人工智能开发与应用大会 2024 北京站召开之际，共同探讨 AI Agent 在企业的应用与落地。

部分精彩观点如下：

利用代理技术为个人打造私人助理，逐步替代传统助理。
先尝试工程化优化，再根据需要引入大模型。
微调、KG 和 Prompt 各有优势，灵活结合应用是落地的关键。
AI 的节奏应该与人类的交互节奏相匹配。

在 12 月 13-14 日于北京举办的 AICon 全球人工智能开发与应用大会上，我们特别设置了【AI Agent 技术突破与应用】专题。随着 AaaS 模式的崛起，AI Agent 有望颠覆传统的 MaaS，为 AI 产业带来新变革。在该专题中，多位业界资深专家将分享将分享 AI Agent 技术的最新进展与应用。同时，专题还将讨论多 Agent 协同与自我学习的潜力，以及 AI Agent 在各行业中的广泛应用，推动智能化转型。

查看大会日程解锁更多精彩内容：https://aicon.infoq.cn/202412/beijing/schedule

以下内容基于直播速记整理，经 InfoQ 删减。

完整直播回放可查看：https://www.infoq.cn/video/N4p7ZM2XzbsEBALB1NzY?utm_source=home_video&utm_medium=article

AI Agent 的最新动态与应用趋势

李飞：大家在 AI Agent 领域关注了哪些动态？有没有一些新的观察和体会？

栾剑：Agent（代理）技术的应用越来越广泛，之前主要是语言模态的代理系统，现在多模态系统增多，接入的工具也更加丰富，不仅有搜索引擎，还有内部知识库等。行业内也出现了许多与音视频相关的框架和平台，虽然标准尚未统一，但呈现百花齐放的态势。此外，随着 O1 发布，强化学习成为了热门话题，代理如何通过强化学习自我进化，成为了重要的研究方向。

李飞：在小米内部，是否有类似的无代码化代理平台？或者在日常应用和尝试中，您是否通过这样的代理平台搭建过一些应用，并且从中获得了哪些便利？

栾剑：我们内部有一个基于自研大模型的平台，应用广泛，包括数据分析、招聘流程优化和文档处理等。平台非常灵活，可以将传统工作流与大模型能力结合，创建新的代理系统。

王译堃：AI 代理领域的交叉性不断增加，例如，Web 3 和区块链的结合不再局限于智能客服和 AI Ops 等传统应用，甚至包括法律文书等工作。另外，AI 代理与具身智能的结合也是一个值得关注的方向。

李飞：京东目前有尝试将机器人与代理结合吗？

王译堃：目前京东有几个战略项目，尤其是物流方面，正在结合机械臂和具身工具进行应用。与代理结合的主要方向是具身代理和具身交互，具体来说，我们将一些复杂任务拆解，利用代理的能力进行高级规划，然后通过具身机器人和多模态感知来实施这些策略。另外，还有具身问答（EQA）系统，根据环境或特定问题，进行类似问答的交互。

李飞：我比较关注国内外的代理平台。例如，像 MarketOn 这样的公司通过无代码化平台，利用代理技术为个人打造私人助理，帮助完成订票、点外卖等任务，逐步替代传统助理。此外，我也在使用无代码平台，快速构建个人应用。比如，关注股票和研报时，通过代理平台连接外部数据，自动获取研报和上市公司数据，帮助我分析企业状况和股市波动，代理在其中起到连接数据和应用的作用。

李飞：微软、谷歌、Meta、百度等科技巨头纷纷发力 AI Agent，甚至 SaaS 行业也在追赶。大家怎么看 AI Agent 目前的发展趋势？有哪些方向或潜力是特别看好的？

王译堃：未来的发展趋势总体来说是技术在增强多模态能力，特别是在一些细分领域和垂直行业，代理技术将发挥更大作用，尤其在人机协作方面。我认为现在比较成熟的方向，如智能客服，未来会有很大发展，特别是赋能企业工具。另一个方向是虚拟助手，无论是在自动驾驶的智能座舱还是作为个人助理，都是很有潜力的。

李飞：您认为真人客服和 agent 客服是一种什么样的关系呢？

王译堃：是从协作到逐步取代的过程。初期，机器与人工并行，机器在并发量和标准化方面有优势。随着发展，大模型解决大部分问题，人工仅用于兜底。最终，在简单场景中，机器会逐步替代人工。

栾剑：现在单智能体应用越来越多，尤其是无代码平台让每个人都能轻松搭建工作流。但从单智能体到多智能体，能力的提升是指数级的，带来了无限可能。未来不仅是协作型智能体，还有可能出现博弈和对抗型智能体，帮助我们研究更复杂的问题。同时，数据的枯竭让我们需要新的知识创造方式。通过多个顶级大模型扮演不同专家角色进行交互，可能会创造出新的、有价值的数据。对于像小米这样的硬件公司，把每个设备视为智能体，通过协同感知和执行，可以带来全新的用户体验。

李飞：大家以前常听到“物联网”这个词，您觉得代理与物联网之间有什么关系？未来，小米的所有硬件设备是否可能通过智能体来驱动和使用呢？

栾剑：每个设备可以是一个独立的智能体，未来它们可能搭载轻量级的端侧模型，具备感知和执行能力。对于需求较低的设备，端侧可以完成任务；而更复杂的任务则交由云端或边缘计算处理。设备通过联网形成多智能体系统，上级智能体负责宏观协调，底层智能体专注于局部任务。这种方式类似于公司层级架构。

未来的多智能体是中心化还是去中心化

李飞：未来的多智能体系统是中心化的，意味着一个大脑控制多个智能体？还是像分布式去中心化的概念？

栾剑：两种情况都有可能。如果是模拟社区或公司这样的结构，去中心化或中心化都会适用。如果是去中心化的社区，大家平等交流；如果是有层级的组织，如公司，则需要中心化。目前一种有趣的实现是，智能体共享一个信息池，信息按权限共享，这样比点对点的沟通效率更高。

李飞：王老师您觉得我们最终会实现去中心化吗？还是说这是一个逐步推进的过程？

王译堃：这两种架构各有优劣，关键在于场景。中心化架构实现简单、成本低，适合简单系统；去中心化则更灵活，但容易产生冲突，通信问题也较复杂。一种折中方式是将中心化和去中心化结合，主要以中心化为主，其他智能体去中心化，确保全局策略的优化。

李飞：我们看到一些公司已经在尝试多智能体协作，例如产品经理、项目管理、前端开发等各自作为独立的智能体，共同完成需求，从设计、PRD、原型到代码实现和上线。我也在思考，这种协作模式中的中心化到底来自哪里？需求是如何驱动的？

栾剑：这种多智能体工作流已经比较成熟，类似传统的团队合作流程，每个角色的任务和信息流是固定的。优点是高效，但缺点是缺乏灵活性，面对新任务时可能需要重新设计工作流，效果会下降。我更看好的是通过上级智能体来自动规划工作流。这个工作流不是预设的，而是根据任务动态调整，并在执行中逐步优化，提升灵活性和效果。

李飞：最开始，我们也希望大模型能作为“大脑”来编排工作流，因为它的灵活性很高。我只需告诉它有哪些节点，工作流的顺序和构建则由大模型的规划能力决定。但随着推进，我们发现大模型在实际落地时也有瓶颈，过于灵活的工作流有时会出现不可解释性问题。

现在我们发现，实际应用中，部分工作流通过意图路由完成，剩余的则通过大模型进行自由编排。两位老师在做这方面有什么经验可以分享吗？

栾剑：目前来看，人工设计的工作流应用最为稳定可靠。对于一个固定类型的任务，人工设计的工作流可以非常完善，避免不稳定的问题。让大模型自我规划工作流，虽然具有潜力，但大模型的推理和规划能力仍然有限。从实际应用角度出发，我们目前还是依赖经过验证的人工设计工作流，但在一些特定场景下（如娱乐场景），全自动规划的工作流可能也能发挥作用。这是一种探索性质的尝试。

李飞：王老师能分享一下如何在销售助手领域落地 agent 吗？

王译堃：销售助手是一个多智能体协作的场景，它通常集中在精细的领域内。主要通过企业 IM 软件来运营销售，利用文本信息进行智能编排，完成任务。通常通过意图路由来控制流程的走向。为了避免问题，也可以结合中心化和去中心化的架构，同时引入监督员角色，对关键环节进行质检和流程评估。

如何克服 AI Agent 技术障碍

李飞：目前大多数 AI Agent 仍依赖于大模型，但大模型训练成本高、缺乏针对特定行业的深入理解等问题依然存在。能否结合特定行业案例聊聊，您认为要如何克服这些技术障碍？以及，是否有一些新的技术进展或方法能有效解决这些问题？

王译堃：前期我们通过小样本学习和数据增强，低成本地探索通路，利用大模型的泛化能力解决简单任务。随着项目推进，数据收集和标注变得关键，能显著提升模型效果。此外，针对销售助手中的 QA 场景，我们计划通过实体关联（如 Graph RAG）来进一步优化模型表现。

李飞：刚才提到，我们可能通过 Prompt 或微调来优化大模型的效果。不同人对大模型的应用有不同观点：有些认为应该对大模型进行领域数据的微调，而另一些则主张通过工程化手段纠正大模型偏差。在实际落地时，我们应该如何权衡？是通过工程化手段解决问题，还是通过适当的数据标注和微调来应对？

王译堃：从收益最大化的角度出发，首先不要盲目使用大模型。工程化手段如果能解决大部分问题，就应该优先考虑。只有在一些特殊场景下，如客户外呼和产品签约等，传统方法难以应对时，才考虑使用大模型。整体上，先尝试工程化优化，再根据需要引入大模型。

李飞：我们的策略也是先通过工程化手段，包括软件优化和 Prompt 构建，尽量发挥大模型的能力。如果这些方法无法解决领域问题，再通过数据标注微调，帮助模型适应特定需求，特别是在语义对不齐的情况下。

栾剑老师，您在小米的经验如何？如何平衡工程化和微调，以确保 ROI？

栾剑：我同意两位的看法，快速添加规则能解决短期问题，但过多规则会增加维护难度。长期来看，规则和微调应并行，特别是对于专业术语，可能需要扩展语料库，帮助大模型更好地理解行业知识。此外，外部知识库（如 KG，知识图谱）能灵活补充大模型不足的领域知识，避免微调后的模型忘记已学内容。微调、KG 和 Prompt 各有优势，灵活结合应用是大模型落地的关键。

李飞：我们可以通过加规则来帮助模型落地并确保成功。对于规则和大模型的关系，虽然大模型的能力会随着训练和迭代不断提升，但规则似乎像是束缚模型的“绳子”，限制了其潜力。在实际应用中，如何在使用规则确保落地的同时，又不限制大模型的能力迭代？

栾剑：我们需要保持一个更新的测试集，用来评估每次迭代后的效果。每次添加或删除规则时，都需要通过测试集进行评测，确保规则的有效性和模型的能力提升。规则通常是为了应对大模型能力不足时的临时手段，随着模型能力的提升，规则应该逐步减少，让模型在学习中掌握这些规则，而不是单纯依赖外部规则。因此，我认为规则应当随着时间逐步减少，让大模型能够自动学习并应对更复杂的场景。

李飞：测试和评测集非常重要，需要频繁更新，以便跟进新的应用场景和变化。

栾剑：是的，为了避免工程师走捷径，测试集必须持续更新，根据线上新情况不断调整，这样才能确保大模型在真实应用中的适应性。

李飞：王老师您在实际落地时，测试部分是如何协作的，尤其是涉及大模型和工程能力的测试？

王译堃：我们搭建了一个平台，依赖评测集而非 A/B 测试来进行模型迭代和大模型选型。平台会收集线上大模型的中间指标和关键数据，人工进行复检。比如，我们的外呼系统会抽取部分数据进行标注，销售助手会检查工作流。通过对比自动化和人工标注的准确率，发现差异时会进行复检。每天我们都会动态更新评测数据，并且新模型上线前都需要通过评测集测试。

李飞：评测数据的维护通常由哪些角色来完成？

王译堃：我们有专门的运营同学来维护评测集，但研发也会参与在线标注，帮助发现问题。运营人员的技术背景可能较弱，虽然能发现问题，但不一定能定位到底层原因，研发则能更深入地了解问题。因此，技术人员也会参与线上标注工作。

AI Agent 的市场接受度与挑战

李飞：目前 AI Agent 的市场接受度如何？在实际应用中，企业在采纳 AI Agent 时面临哪些具体的技术难题或业务挑战？

栾剑：目前 AI Agent 的接受度挺高的，特别是在一些成熟的工作流中，通过大语言模型替代人工，能够显著提高自动化程度和效率。然而，仍然存在一些质疑。与人类完成的工作相比，AI Agent 在灵活性和创造性上仍有所欠缺，处理复杂情况时的能力有限。另外，人类工作可以追责，但大模型的结果很难确保每次都正确。即便是小概率的错误，可能也会导致用户的不信任，尤其是在财务等重要领域，AI 目前仍然只是辅助工具，无法完全替代人工。社会上也有担心，AI 是否会取代更多人的工作岗位，带来就业压力。对此，我持乐观态度。就像汽车取代马车时，虽然一些岗位消失了，但新的岗位和需求也随之增加，最终带来了更多的工作机会和创新可能。

李飞：在实际应用中，什么时候应该快，什么时候应该慢？

栾剑：如果是全自动的工作流，AI Agent 的效率肯定高于人工，因为它不需要人为干预，可以 24 小时不间断运行，处理速度可以通过增加服务器并行化来提高。如果工作流需要人参与，瓶颈通常在于人，而不是 AI Agent 本身。在这种场景下，AI 的慢或效率低主要体现在用户体验上，尤其是 C 端用户可能不愿意等待太久。不过，如果 AI 的回答过快，超过正常人类对话的节奏，反而可能让人怀疑回答的可靠性，甚至觉得不够真诚。因此，AI 的节奏应该与人类的交互节奏相匹配，才能提供更自然的体验。

李飞：关于 AI Agent 与人的交互，未来是否会是 AI 主动引导用户，而不仅仅是被动响应？

栾剑：这是一个重要方向。当前，AI Agent 大多是被动响应，等待用户提问。未来，我们希望 AI 能有“主动智能”，主动记住用户习惯，在合适的时候提醒用户。例如，如果 AI 感知到某些环境变化，它可能会主动提醒用户某些事情。当用户提问不全时，AI 应该主动询问更多细节，完善信息，而不是盲目回答。

李飞：那这种“图谱化”的交互方式，是不是比简单的直问直答更合适？

栾剑：对，图谱化能帮助 AI 更有逻辑地引导用户，尤其在需要用户填写表格等场景中，AI 可以通过图谱引导用户逐步完成。而在更复杂的对话中，AI 通过不断提问、澄清和补充信息，最终给出更完整、准确的答案。

李飞：王老师，在京东的实际应用中，AI Agent 面临哪些技术难题和业务挑战？

王译堃：整体上，市场接受度有了显著提升。技术发展迅速，资金注入不断，AI Agent 的应用场景变得丰富，尤其是 B 端企业在抓住这波技术机会时，C 端用户也在逐渐感受到智能化的提升。

主要挑战在于交互效果的稳定性。特别是在电商和物流行业，价格、路径等方面的容错率要求非常高。同时，TTS 技术的欠缺也影响了对话的自然度，导致用户感受到生硬的机器人语音，降低了体验。不仅是客户的信任，内部员工也存在质疑，特别是历史上没有大模型时，分类器做的工作给人的印象不佳，导致对 AI 的信任难以建立。此外，初期投资往往难以衡量回报，这增加了业务方面的挑战。

李飞：您如何平衡 AI 和人的协作？尤其是在容错率低的场景下，什么时候引入人工协助？

王译堃：人机协作可以并行也可以串行。我们会先在关键节点部署大模型，验证其效果。如果成功，再逐步扩展到全链路。关于主动智能，AI 不仅依赖模型，还可以结合环境感知来主动采取行动，提升协同效率。

对于容错率低的场景，如数据分析等，AI 可能会先执行，但当遇到不稳定性时，需要人工确认。我们通过“human in the loop”方式，在关键环节引入人工干预，确保系统的稳定性和准确性。

李飞：关于 AI 的可信任性，尤其是在大模型的应用中，如何增强用户对其信任？因为用户往往不知道 AI 是如何作出回答的。

栾剑：最简单的方法是通过引入人类监督，确保质量和责任可追溯。通过人为干预，大家会对 AI 结果更有信心，因为能追责，确保输出是正确的。还使用多个智能体来监督和评判一个智能体的工作。如果实时性要求不高，可以在多个环节加入这种监督机制，通过综合评判和打分提升准确度和可靠性。AI 系统可以通过强化学习或对比学习不断改进和迭代，逐步提高准确性和智能度。如果能搭建起这种自动化的进化过程，AI 将变得更加高效。

李飞：AI 模型在做评判时，效果是否会比仅仅生成的效果更好？

栾剑：确实如此。人类写文章时，通过反复修改会变得更好，同样，如果 AI 模型能对其生成的内容进行评判、反馈和修改，最终效果会更加精准。比如，AI 可以扮演作文批改的角色，帮助发现生成内容中的问题并进行优化。

李飞：对于大模型在 agent 工作流中的自我进化是如何思考的呢？

王译堃：关于这个问题，我之前也提到过，我们这边主要依靠多肢体来进行质检和监督，尤其是在各个环节中进行监控。特别是因为我们面向的是 B 端客户，可能会出现一些不准确的情况，这可能带来法务上的风险。所以，重点是在风控方面，我们专门开发了一些单独的 agent，收集不良案例。如果在这些案例中出现了一些典型的情况，我们会反过来进行微调。

另外，我们也希望能够将更多的不确定场景转化为确定的情况。举个例子，在我们开发企业内部的问答类工具时，初期我们可能会采用 RAG（检索增强生成）来进行信息检索。但每次召回的语料可能不同，即使是相同的语料，给出的答案也不一定稳定。为了提高稳定性，我们会让大模型聚焦在一些高频问题上，提取固定答案，将更多的不确定因素转化为确定答案，从而减少线上风险。

栾剑：我们也做过一些思考。对于 C 端用户来说，我认为个性化最好在本地实现，无论是通过本地记忆或微调本地模型。端侧大模型的优势在于此，但目前端侧训练仍面临算力和数据清洗的挑战。数据清洗不当可能导致模型迭代效果变差。因此，目前的成熟做法是将用户历史信息清洗并存储在本地知识库中，用户有相关需求时再从中提取记忆，加入模型输入中。这种方式在目前看来比较稳定可靠。

李飞：我也有类似的尝试。我们做企业智能分析产品，个性化方面主要通过员工标签来实现。例如，通过部门和关注的分析领域（如经营分析、门店分析等）来主动推送分析场景，帮助用户冷启动。另外，我们也用记忆型个性化。用户执行任务时，任务状态和结果会通过 RAG 或知识库存储。当用户第二天登录时，系统会根据前一天的任务情况主动询问任务是否完成，效果如何。这样做有助于个性化与实际场景的结合。

李飞：AI Agent 的发展是否会对未来的企业组织结构和员工角色产生影响？如果有，具体会怎样改变我们的工作方式和企业文化？

王译堃：肯定的。某些职位可能会被高效、低成本的大模型取代，但也会有新部门或新角色出现，组织架构会受到影响。大模型带来的降本增效效果非常明显，这与当前企业文化非常契合。

李飞：未来是否会出现从集体化的工作方式转变为类似工作坊、小作坊式的办公模式？

王译堃：我不认为会完全转变。大模型的引入，虽然能提升某些特定角色的效率，但也会带来新的角色或工作岗位的出现。人力并不会越来越少，而是从数量向质量转化的过程。也就是说，工作方式可能会优化，但人数不会大幅减少。

栾剑：随着智能体的日益强大，管理者的比例可能会上升，因为很多一线工作可以由智能体完成。这意味着产品经理和技术管理者将变得更加重要，更多地承担设计和协调的角色。未来，智能体可能发展到足够成熟，以至于公司只需一个 CEO，其他职位都由智能体担任。这是一个极端的设想，但如果人人都能轻松创建公司，社会的创造力将得到充分释放，进而加速社会的进步和变革。

李飞：曾有人说，如果生产力提升了百倍，生产关系将发生根本性变化。虽然现在的大模型和 AI 还未达到这种提升幅度，但它们正朝着这个方向发展。

李飞：如果大模型和 AI agent 发展到极致，我们与技术或产品的交互方式会是什么样的？

王译堃：还是刚刚提到的智能驾驶，它将深刻影响我们的日常生活和交通方式。

栾剑：我有些悲观。如果 AGI 或大模型的智能超过人类，我们可能不再需要与其交互，只需接受它给出的答案。现在我们需要大模型给出理由，是因为我们对结果缺乏信任。但如果每次模型的结果都比我们的判断更准确，可能就不再关心理由，只要相信它的答案，就像我们信任一个非常聪明的朋友一样。终极形态下，智能体可能会成为我们极度依赖的工具。

但我认为智能体不会颠覆人类社会。就像机械设备早已超越人类的力量，但它们依然是人类的工具。智能体也应如此，除非它们发展出自我意识，那时可能会带来一些风险。

李飞：机器人看起来像人类一样，虽然这种情况可能还很远，但若能发展到那种水平，确实会给人类社会带来变革。

发布

暂无评论

创作场景

智能体的未来：一家公司只需要一个 CEO？

AI Agent 的最新动态与应用趋势

未来的多智能体是中心化还是去中心化

如何克服 AI Agent 技术障碍

AI Agent 的市场接受度与挑战

评论

比亚迪新能源汽车战略布局研究

mockito入门

代码实例解读如何安全发布对象

新范式+新标准＝世界级产品｜StarRocks年度总结

软件测试/测试开发 | app自动化测试（Android）--App 控件交互

一文走进多核架构下的内存模

StarRocks市场渗透率跻身Top10！

架构实战营第 10 期 - 模块五：微博评论高性能高可用计算架构设计

技术管理之干系人管理

1

BSN-DDC基础网络详解（一）：基础介绍

应用部署初探：3个主要阶段、4种常见模式

2K字就能理解的async/await原理，还要拖多久？

一看就懂！任务提交的资源判断在Taier中的实践

想找个稳定的工作

RocketMQ源码-NameServer架构设计及启动流程

分层次的电路设计方法

windows命令窗口

火山引擎DataTester：0代码也能实施A/B测试的实验平台

开发互动直播应用很简单：声网 Android Demo保姆级跑通教程

手把手教您在PyCharm中连接云端资源进行代码调试

OKR之剑·实战篇04：OKR执行过程优化的那些关键事

《欧拉开源操作系统行业应用案例集》2023年案例集征集开始！

全球首个面向遥感任务设计的亿级视觉Transformer大模型

云时代，好用的数据迁移方案推荐

Databend Roadmap in 2023

坚持技术or转做管理，我们该如何选择？

AIGC的浪潮下，文本生成发展得怎么样了？

贴合运维场景的告警聚合实现——以Zabbix为例

分享一个 HIVE SQL 性能优化点-使用公共表表达式 CTE 替换临时表

创作场景

智能体的未来：一家公司只需要一个 CEO？

AI Agent 的最新动态与应用趋势

未来的多智能体是中心化还是去中心化

如何克服 AI Agent 技术障碍

AI Agent 的市场接受度与挑战

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载