AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?

  • 2025-01-24
    北京
  • 本文字数:2499 字

    阅读完需:约 8 分钟

大小:1.22M时长:07:05
OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?

整理 |华卫、核子可乐


2025 年了,OpenAI 预热多时要发的超级智能体又一次没赶在前边。直到今日凌晨,OpenAI 才姗姗上线 Operator——一款能够访问 Web 并为用户执行任务的智能体。从今天起,Operator 已面向美国 Pro 套餐用户开放,下一步将扩展至 Plus、Team 以及 Enterprise 用户,并在未来将相关功能集成至 ChatGPT 当中。用户可以要求 Operator 处理各种重复性的浏览器任务,例如填写表格、订购杂货甚至是创建表情包。


而就在昨日,智谱就全新升级了去年 11 月就“抢跑”OpenAI 发布的电脑智能体 GLM-PC ,主打的是“代码思维”,新推出了「深度思考」模式,又增加专用来做逻辑推理和代码生成的功能。


功能体验:Operator“好坏参半”


OpenAI 的首个智能体 Operator 终于到来,好消息是它能帮你自动干不少电脑上的活儿了,但坏消息是“翻车”系数不低。


作为 OpenAI 首款真正模拟人类操作网页浏览器的 Agent,Operator 能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。用户可以在多个类别中选择不同的自动化任务,涵盖购物、配送、餐饮和旅行等领域。


期间,用户可以添加其他指令和随时接管控制,Operator 还可以同时运行多项任务。并且,Operator 允许用户保存主页上的快速访问提示词,因此非常适合执行重复类任务。如果用户没有指定网站,Operator 也可以进行浏览,而不是直接进入应用程序或服务。对于关键操作,Operator 会要求用户确认。


技术方面,Operator 可以对浏览器进行“查看”(通过屏幕截图)、和“交互”(使用鼠标和键盘支持所有操作),因此能够在 Web 之上执行操作且无需自定义 API 集成。一旦遭遇难题或者错误,Operator 还可利用其推理能力实现自我纠正。


在 OpenAI 的官方演示中,Operator 执行了餐厅预订、网购、抢勇士队比赛门票、预约清洁服务以及点外卖等多种场景的任务。然而,演示过程却不是全程一帆风顺,刚开始的演示是正常进行,但到了后半段的演示却频频“翻车”,甚至未能成功加载相关网页。


而 Operator 的官方介绍也强调,其目前仅提供研究预览版,虽然已经能够处理各类任务,但仍在学习和发展的过程当中很可能会犯错。例如,其目前在创建幻灯片或者管理日历等复杂界面中仍然表现不佳。因此,Operator 尚有局限性并将根据用户反馈进一步完善。


相比之下,智谱的 GLM-PC 已经是进行了一轮升级的“第二代”版本了。去年 11 月,GLM-PC v1.0 在 CogAgent 开源模型的基础上强化了感知、规划、创造能力,并实现有限的自我纠正现在的新版 v1.1 则在规划和推理上作了更多的优化。


根据官方介绍,GLM-PC 不仅能够处理复杂逻辑任务,还能在开放性问题上展现更高的适应能力、创造力和泛化能力,更能通过动态优化和情境感知,帮助用户探索更高效的解决方案,特别是在循环任务处理、多步推理执行以及长链条任务管理等方面。 

在实例展示中,GLM-PC 能够自动为微信群好友定制个性化新春祝福语及祝贺图片 / 视频,并通过一键操作实现群发,高效完成节日问候;能为用户快速查询航班信息,筛选最经济机票,并同步设置飞书日历提醒,实现航班查询、购票筛选到日程安排的一站式服务。 


技术水平:谁家 Agent 模型略逊一筹?

尽管都是通过人类一样“观察”和“操作”计算机来帮助用户完成各类电脑任务,但 Operator 与智谱 GLM-PC 在工作原理上也有很大不同。


Operator 由一套名为 Computer-Using Agent(计算机使用智能体,简称 CUA)的新模型提供支持,CUA 将 GPT-4o 的视觉功能与通过强化学习进行的高级推理相结合,在训练之后能够与图形用户界面(GUI)进行交互——即人们在屏幕上看到的按钮、菜单和文本字段。


而新升级的 GLM-PC 采用的是“左右脑”协作的模式,左脑负责代码生成与逻辑执行,右脑专注于深度感知与交互体验,背后的支撑是智谱自主研发的多模态 Agent 模型 CogAgent 与代码模型 CodeGeex。

具体到该智能体运转的过程,GLM-PC 是以代码形式指挥工作流程和工具调用,期间强化深度思考模式下的规划、推理、反思能力,从而能够稳定高效地应对复杂场景与任务。并且在实际执行时,GLM-PC 能感知多层环境反馈,协助反思,以有效自我纠正与优化。 


总体来看,两家发布的电脑智能体在技术路线上各有千秋。不过,有评测结果显示,CogAgent 在 GUI 定位(Screenspot)、单步操作(OmniAct)、中文 step-wise 榜单(CogAgentBench-basic-cn)、多步操作(OSWorld)都取得了不错的结果,但在 OSworld 上略逊于针对 Computer Use 特化的 Claude-3.5-Sonnet 和结合外接 GUI grounding 模型的 GPT-4o。


超级智能体的未来


下一步,OpenAI 计划很快在 API 中公开支持 Operator 的模型 CUA,以便开发人员能够使用它来构建自己的计算机使用智能体。智谱则准备将 GLM-PC 与 AIPC 深度融合。据称,智谱正与联想、华硕等知名 PC 厂商展开深度合作探讨。


“2025 年是 Agent 之年”,在各家接二连三的智能体产品发布后,许多人都如此感叹。OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 对此公开表示,“就我个人而言,我认为 2025 - 2035 年这十年是智能体的十年。要让它真正发挥作用,我感觉方方面面都有大量工作要做。但它应该能行得通。”


同时其指出,像 OpenAI 的 Operator 这样的项目之于数字世界,就如同类人机器人之于物理世界。人类

会成为低级自动化的高级主管,有点像司机监控自动驾驶系统。这种情况在数字世界发生的速度会比物理世界快,因为翻转比特的成本大约比移动原子低 1000 倍。


“未来,大家可以组建 Operator 团队,让它们执行选定的长期任务,甚至是运营一整家公司——像 CEO 一样,同时监督十个这样的团队,偶尔可能还得深入一线解决某个障碍。”


Karpathy 还透露,在 OpenAI 成立初期他们就研究过这个想法(参见 Universe 和 World of Bits 项目),但顺序有误——大语言模型必须先出现。但即便到现在,他也不能百分百确定时机是否成熟。毕竟多模态在过去一两年才勉强与大语言模型整合,而且往往是作为适配器附加的。更糟糕的是,LLM 还没有真正涉足过任务周期极长的领域。例如,当视频包含海量信息,是否能把所有信息都塞进上下文窗口(当前范式),然后还指望它能正常运行。


参考链接:

https://openai.com/index/introducing-operator/

2025-01-24 13:597329

评论

发布
暂无评论

Git-如何优雅地回退代码,字节跳动内部学习资料泄露

Geek_f90455

Java 程序员 面试 后端

Apache APISIX 2.8 正式发布,带来更多新功能!

API7.ai 技术团队

开源 网关 APISIX

Java反射机制的那些事儿,Java基础必背知识点

Java 程序员 面试 后端

Java多态实现原理,分布式系统中ACID和CAP有什么区别

Java 程序员 面试 后端

Java内联函数,SpringBoot集成Redis集群

Java 程序员 面试 后端

java学习-数据类型和运算符,Java社招面经分享

Java 程序员 面试 后端

JAVA学习(3,黑马Java全套百度云

Java 程序员 面试 后端

Fil值得投资吗?Ipfs未来价值一万一枚?

区块链 分布式存储 IPFS fil

ELK性能优化实战总结:我强任我强,美的Java面试题

Geek_f90455

Java 程序员 面试 后端

GitHub-标星过万!腾讯技术官发布的,腾讯Java社招面试经验

Geek_f90455

Java 程序员 面试 后端

Java已死,有事烧纸,字节跳动历年校招Java面试真题解析

Java 程序员 面试 后端

Java并发编程(实战(1),真香警告

Java 程序员 面试 后端

Java中高级核心知识全面解析,张孝祥Java基础视频教程

Java 程序员 面试 后端

HashMap源码解析,Java黑马程序员资源

Geek_f90455

Java 程序员 面试 后端

Java 反射 getClass(),最新Java大厂高频面试题

JVM调优资料

Java 程序员 面试 后端

Java-进阶:集合框架2,熬夜整理华为最新Java笔试题

JVM调优资料

Java 程序员 面试 后端

JavaScript是解释型语言--V8、JIT,Java重点知识大全

JVM调优资料

Java 程序员 面试 后端

Java中高级核心知识全面解析(4),Java开发中遇到最难的问题

JVM调优资料

Java 程序员 面试 后端

Java多线程入门篇,GitHub标星1w的Java架构师必备技能

Java 程序员 面试 后端

Java学习路线图(如何快速学Java,Java算法题面试

Java 程序员 面试 后端

Druid 集群方式部署 —— 选择硬件

HoneyMoose

Hystrix-服务容错处理:什么是Hystrix,鲁班学院二期

Geek_f90455

Java 程序员 面试 后端

IDEA的中文注释引起的程序报错!,那些被大厂优化的程序员们

JVM调优资料

Java 程序员 面试 后端

Java 集合容器篇面试题(上,Java中高级程序员进阶

JVM调优资料

Java 程序员 面试 后端

Vue深入学习3—数据响应式原理

魁首

java 通过 SmbFile 类操作共享文件夹,膜拜大牛

JVM调优资料

Java 程序员 面试 后端

Java个人学习之旅(第十天),黑马程序员Java全套视频

JVM调优资料

Java 程序员 面试 后端

J2EE基础集合框架之Map集合,公司初级程序员Java面试题

JVM调优资料

Java 程序员 面试 后端

java springboot,大专生面试阿里P7居然过了

JVM调优资料

Java 程序员 面试 后端

思想的懒惰

箭上有毒

8月日更

Druid 集群方式部署 —— 从独立服务器部署上合并到集群的硬件配置

HoneyMoose

OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?_生成式 AI_华卫_InfoQ精选文章