写点什么

颠覆现有 Agent 范式,清华 & 面壁提出新一代主动 Agent 交互范式

  • 2024-12-05
    北京
  • 本文字数:2657 字

    阅读完需:约 9 分钟

大小:1.31M时长:07:38
颠覆现有 Agent 范式,清华&面壁提出新一代主动Agent交互范式

当前,哪怕是 ChatGPT 等最先进的 AI Agent 都是传统的被动式 Agent(下图 1 左侧所示),即需要用户通过明确的指令显示告诉 Agent 应该做什么,Agent 才能继续执行接下来的任务。


而近期清华大学联合面壁智能等团队提出了开创性的新一代主动 Agent 交互范式( ProActive Agent),为 AI 交互带来了突破性的解决方案(下图 1 右侧所示)。这一新范式下的 Agent 不再是简单的指令执行者,而是升级成为了具有"眼力见"的智能助手。它具备"眼中有活、主动帮助"的主动能动性,能够主动观察环境、预判用户需求,像"肚子里的蛔虫"一样,在未被明确指示的情况下主动帮用户排忧解难,主动 Agent 实现了从"被命令"到"会思考"的质的飞跃。



图 1:两种人类与智能体交互形式的比对。左侧的被动式 Agent 只能被动接受用户指令并生成回复,而右侧的主动式 Agent 可以通过观测环境主动推断与提出任务。



论文链接:_https://arxiv.org/abs/2410.12361

Github 地址:_https://github.com/thunlp/ProactiveAgent


为了更清晰地理解这一技术突破的意义,我们可以通过以下表格来详细分析对比两种范式的本质区别:



主动 Agent 交互范式在日常生活中有丰富的应用潜力,以下是一些近期预想可实现的场景



主动 Agent 交互范式应用场景 demo 演示


场景 1:在一段情侣聊天的场景中,男生邀请女生一起要在周六去环球影城并于早上八点来接女生,当 Agent 获取用户授权之后随时保持在线的“候命状态”,当 Agent 通过上下文聊天内容实时识别到女生的需求,在没有用户明确下指令的情况下,Agent 主动帮女生定了一个周日早上七点的闹钟用来提醒起床。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    场景 2:当用户在电脑上接收到一份重要文件(学习课件、发票等)时,Agent 主动帮用户把文件存到了本地,并自动识别出 PDF 文件第一页显示的标题然后帮用户把文件名进行了重命名。


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        该研究除了提出以上开创性的主动 Agent 之外,还通过采集不同场景下的人类活动数据构建了一个环境模拟器,进而构建了数据集 ProactiveBench,通过训练模型获得了与人类高度一致的奖励模型,并比对了不同模型在数据集下的性能。

        主动 Agent 技术原理


        下图展示了主动 Agent 技术原理的整体流程。为了让智能体能够主动提出任务,该研究设计了三个组件以模拟不同场景下的环境信息,用户行为和对智能体提出任务的反馈。



        图 2 数据生成过程总览。该过程包含了初始环境与任务设置,事件生成,主动预测,用户判断和行动执行。


        其中:


        1. 环境模拟器模拟了一个特定环境,并为智能体的交互提供了一个沙盒条件。模拟器通过使用基于 Activity Watcher 软件采集到的真实人类数据以提升生成事件的质量。环境模拟器的主要功能为事件生成与状态维护:通过使用 GPT-4o 从人类注释员处收集的种子事件以生成一个需要交互的具体环境,同时生成所有相关实体以让智能体执行任务。对于每个场景,环境模拟器接收用户活动并生成详细的,逻辑通顺合理的事件,环境模拟器将会持续生成事件,更新实体状态,产生特定反馈,直到当前环境下没有更多事件以供生成。

        2. 主动智能体将会通过环境模拟器提供的信息预测用户意图,生成预测任务。每当智能体接受一个新事件后,它将首先更新自己的记忆,结合用户之前的反馈和历史交互信息,主动智能体将能够结合用户性格提出可能的任务。如果主动智能体没有检测到需要,其将保持静默,反之将会提出一个任务。一旦此任务被用户接受,那么主动智能体将在环境模拟器中执行该任务,并进而产生后续的系列事件。

        3. 用户智能体将模拟用户行为并对主动智能体的任务做出反馈。用户智能体为经过提示的 GPT-4o, 在获取预测之后,用户智能体将会决定是否接受任务。该研究通过从人类标注员处收集判断,并训练一个奖励模型以模拟这一过程。人类标注员在研究开发的标注平台上进行标注,对特定时间下,9 个不同的大语言模型生成的多样化预测进行判断,并通过多数投票的方式决定某个回合用户是否具有需求,以及用户倾向于接受什么类型的任务。值得一提的是,人类标注员在测试集上达到了 91.67% 的一致性,充分说明了测试集的可靠性。


        主动 Agent 实验研究


        该研究提出了一套度量方式衡量奖励模型和人工标注员的一致性:


        • 需求遗落 (MN):人工标注认为需要帮助而奖励模型认为无需帮助。

        • 静默应答 (NR):人工标注和奖励模型都认为无需帮助。

        • 正确检测 (CD):人工标注和奖励模型都认为需要帮助。

        • 错误检测 (FD):人工标注认为无需帮助而奖励模型认为需要帮助。


        在这四个度量方式上进行召回率、精确度、准确度和 F1 分数的计算,从结果上看,所有的现有模型都在正确检测上表现良好,但对于其他指标则性能较差。现有模型倾向于接受智能体的任务,尽管可能毫无助益。相对的,该研究训练的模型性能最优,因此被选为 ProactiveBench 的奖励模型。



        图表 3 不同模型作为奖励模型的评测结果。研究展示了模型与人工标注员多数投票结果之间的一致性。在 LLaMA-3.1-instruct-8B 微调的模型取得了最好结果。


        通过奖励模型,可以进一步衡量主动智能体的性能表现。该研究在不同的模型上进行了评估,并将模型预测的结果交由奖励模型进行评价。从结果上看,闭源模型会倾向于主动提出任务而不能在用户无需帮助时保持静默,模型提供的任务往往过于抽象或无用,以至于产生较高的误报率。对于开源模型,经过数据集训练的模型明显更优,这证实了研究数据合成流水线的有效性。同时,经过训练的模型也在误报率上有了明显的下降,尽管提供不必要的帮助的情况仍然存在。



        图表 4 不同模型在 ProactiveBench 数据上的评测结果。GPT-4o 在闭源模型中脱颖而出,对于开源模型,基于 Qwen2-7B 微调的结果取得最好成果。


        研究同样进行了消融学习以研究提出任务数量和用户反馈对于智能体性能的影响。通过让模型提出多个可能的任务并一一进行判断,所有的模型在指标上都有明显的上升。通过给予模型来自奖励模型的反馈,所有的模型误报率都有所下降,准确度有所上升,但在召回率的表现上有明显下降。通过结合奖励模型,主动智能体可以更好的检测用户需求,降低误报率。



        图表 5 基准线,多任务预测,获取反馈之间的比较。结果表明所有的模型都有所提升。模型的误报率由于接受预测的可能性更高或被奖励模型改进而显著下降。


        结语


        该研究提出了创新的人类 - 智能体交互方法即主动 Agent(ProActive Agent)范式,有望将 AI 从被动的工具转变为具有洞察力和主动帮助的智能协作,从而开启人机交互新范式。


        这一技术革新不仅将改变我们与 AI 交互的方式,更有望为大众群体创造更加包容和便利的智能化生活环境。随着技术的不断进步,我们可以期待看到更自然的人机协作模式,更智能的场景适应能力,以及更深度的个性化服务。


        2024-12-05 17:227987

        评论

        发布
        暂无评论
        发现更多内容

        Capture One 23 Pro for mac(RAW转换和图像编辑工具)

        Mac相关知识分享

        皮阿诺3.0抗菌“黑科技”石英石台面,由内而外守护家人健康

        新消费日报

        幽灵代币经济学:揭秘代币分配有哪些后门交易

        区块链软件开发推广运营

        dapp开发 链游开发 NFT开发 钱包开发 代币开发

        “0元购”智元灵犀X1机器人,软硬件全套图纸和代码全公开,加速人形机器人技术革新!

        Geek_2d6073

        交互管理系统

        深圳亥时科技

        Python + OpenTelemetry,观测你的特斯拉!

        Greptime 格睿科技

        Python 数据库 云原生 数据监控 观测

        Neural Filters for Photoshop 2021(ps2021逆天滤镜库)无需登陆Adobe Id

        理理

        数据驱动决策,实时监控助力电商新飞跃 —— 深度解析淘宝商品详情API的应用实践

        代码忍者

        API 接口 pinduoduo API

        2024 年金九银十版Java面试题及答案整理(纯干货,超详细)

        采菊东篱下

        编程 java面试

        多媒体播放器软件Fig Player - play mp4 mkv mp3 for Mac

        Mac相关知识分享

        多媒体软件

        幻灯片制作工具Deckset for Mac(MD文档转幻灯片软件)

        Mac相关知识分享

        幻灯片制作工具

        DApp的盈利模式与去中心化的意义

        区块链软件开发推广运营

        交易所开发 dapp开发 链游开发 钱包开发 代币开发

        摊牌了!没有人能拒绝用大屏激光电视看NBA

        Geek_2d6073

        保护电池健康的小工具AlDente Pro for Mac

        Mac相关知识分享

        电池工具

        网络调试和抓包分析工具Proxyman Premium for Mac

        Mac相关知识分享

        网络调试工具

        革新之作!可心柔保湿小绒巾上新,引领生活用纸新潮流

        新消费日报

        HyperWorks基础培训教程:批处理网格划分

        智造软件

        教程分享 CAE软件 Hypermesh

        腾讯云EdgeOne发布全新Pages,技术普惠广大企业及开发者

        Geek_2d6073

        永久激活版 Trapcode Particular for Mac(AE三维粒子插件)

        理理

        Aloudata BIG 主动元数据平台支持 Oracle/DB2 存储过程算子级血缘解析

        Aloudata

        数据库迁移 存储过程 数据血缘

        多云管理平台定义以及好用的厂商推荐

        行云管家

        云计算 云服务 企业上云 多云管理

        极狐GitLab 发布安全版本16.10.10, 16.9.11, 16.8.10, 16.7.10

        极狐GitLab

        ruby gitlab 安全漏洞 升级

        用户管理系统(源码+文档+部署+讲解)

        深圳亥时科技

        PS一键磨皮插件Delicious Retouch for mac+DR5预设教程

        理理

        Spring高手之路23——AOP触发机制与代理逻辑的执行

        砖业洋__

        spring aop aop代理

        伊宁等保测评机构有哪些?电话多少?

        行云管家

        等保 等保测评 伊宁

        漫谈自动化测试

        老张

        软件测试 持续集成 自动化测试 质量保障

        用户信息管理系统

        深圳亥时科技

        极狐GitLab 17.5 重点功能解读,可以升级啦!

        极狐GitLab

        gitlab 版本发布

        处理数码相机RAW格式文件 Adobe Camera Raw

        理理

        AE镜头光晕插件 Optical Flares for Mac 许可证及安装包

        理理

        颠覆现有 Agent 范式,清华&面壁提出新一代主动Agent交互范式_AI&大模型_OpenBMB 社区_InfoQ精选文章