
2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。
智谱 AutoGLM 部门负责人刘潇已确认出席,并发表题为《大模型自主智能体的发展:以 Phone Use 和 Computer Use 智能体为例》的主题演讲。大语言模型不仅展现了强大的语言理解和生成能力,也展现了一定的推理能力和作为自主智能体的潜力。刘潇在本次演讲中将介绍从 GPT-3 开始,大语言自主智能体的概念和发展的 3 个阶段,重点介绍第 3 阶段,即当前正在发展中的基于 GUI 和推理模型的大模型自主智能体。
相比此前的对话智能体和基于 Workflow 的智能体,自主智能体将实现通用的智能代理能力,走出场景特化的局限性。本次演讲将重点介绍 Phone Use 和 Computer Use 自主智能体的发展情况,比较这些方案的优劣,以及在实际例子上的表现,并且探讨接下来的大模型自主智能体发展的方向。

刘潇在智谱担任研究员,主要研究方向为基础模型和基础智能体的算法和应用,以第一作者或共一发表人工智能方向 A 类论文达 10 篇,主要工作包括预训练模型提示学习中 P-Tuning 系列工作,开源的千亿双语语言模型 GLM-130B,ChatGLM 系列模型,和 Phone Use & Browser Use 自主大模型基础智能体 AutoGLM。曾获 WWW 2022 最佳论文提名奖,个人谷歌学术引用一万余次。本次会议中,他的详细演讲内容如下:
演讲大纲:
1. 引言
大语言模型的崛起与能力背景
自主智能体的定义与重要性
2. 大语言自主智能体的发展历程
大模型智能体的第一/二阶段:
基于非自主工具调用的大模型智能体
基于系统提示和 Workflow 工具调用的大模型智能体(GPTs)
系统提示与 Workflow 工具调用的原理
实际应用案例与效果展示
基于 GUI 和推理模型的大模型自主智能体(发展中)
最新进展与技术亮点
GUI 和推理模型的集成方式
当前阶段的挑战与解决方案
初步应用与前景展望
3. 方案比较与实际表现
三种方案的优劣对比
在不同场景下的实际表现分析
用户反馈与评价
4. 大模型自主智能体的发展方向
技术趋势与未来展望
潜在的应用领域与市场机会
研究与发展的挑战与对策
您认为,这样的技术在实践过程中有哪些痛点?
我们注意到模型在性能和效率上存在挑战,如高计算资源消耗和响应速度问题,这直接影响了其泛化能力和鲁棒性,导致在新领域或面对异常输入时可能表现不佳。此外,由于模型决策过程缺乏透明度,解释性成为一大难题,这进一步影响了人机交互和用户体验的设计。为了保持模型性能,持续学习和更新是必要的,但这又带来了版本控制和知识迁移的问题。最终,这些技术挑战和社会接受度、公众认知紧密相关,需要通过教育和宣传来提升公众对这项技术的理解和信任,从而促进其广泛应用和普及。
演讲亮点
端到端模型自主预测
听众收益
深入理解大语言模型自主智能体的发展历程与未来趋势,全面了解从 GPT-3 开始的技术演进、阶段划分及每个阶段的代表性技术和应用,并获得关于该领域未来发展趋势的洞察,有助于提前布局和规划相关技术的研究与应用。
分享将详细剖析大语言模型自主智能体在实际应用中的挑战,如数据隐私、模型偏差、解释性缺失等,并提供相应的解决方案和最佳实践,使听众学习到如何在实际项目中有效应对这些挑战,提升模型的性能和可靠性。
除此之外,本次大会还策划了多模态大模型及应用、AI 驱动的工程生产力、面向 AI 的研发基础设施、不被 AI 取代的工程师、大模型赋能 AIOps、云成本优化、Lakehouse 架构演进、越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。
现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。

评论