OpenAI 想了快 10 年的超级智能体终于来了！有惊喜，但比智谱晚还“翻车”系数高？_生成式 AI_华卫

AICon上海｜与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用了解详情 



 写点什么



大小：1.22M时长：07:05

OpenAI 想了快 10 年的超级智能体终于来了！有惊喜，但比智谱晚还“翻车”系数高？

整理｜华卫、核子可乐

2025 年了，OpenAI 预热多时要发的超级智能体又一次没赶在前边。直到今日凌晨，OpenAI 才姗姗上线 Operator——一款能够访问 Web 并为用户执行任务的智能体。从今天起，Operator 已面向美国 Pro 套餐用户开放，下一步将扩展至 Plus、Team 以及 Enterprise 用户，并在未来将相关功能集成至 ChatGPT 当中。用户可以要求 Operator 处理各种重复性的浏览器任务，例如填写表格、订购杂货甚至是创建表情包。

而就在昨日，智谱就全新升级了去年 11 月就“抢跑”OpenAI 发布的电脑智能体 GLM-PC ，主打的是“代码思维”，新推出了「深度思考」模式，又增加专用来做逻辑推理和代码生成的功能。

功能体验：Operator“好坏参半”

OpenAI 的首个智能体 Operator 终于到来，好消息是它能帮你自动干不少电脑上的活儿了，但坏消息是“翻车”系数不低。

作为 OpenAI 首款真正模拟人类操作网页浏览器的 Agent，Operator 能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。用户可以在多个类别中选择不同的自动化任务，涵盖购物、配送、餐饮和旅行等领域。

期间，用户可以添加其他指令和随时接管控制，Operator 还可以同时运行多项任务。并且，Operator 允许用户保存主页上的快速访问提示词，因此非常适合执行重复类任务。如果用户没有指定网站，Operator 也可以进行浏览，而不是直接进入应用程序或服务。对于关键操作，Operator 会要求用户确认。

技术方面，Operator 可以对浏览器进行“查看”（通过屏幕截图）、和“交互”（使用鼠标和键盘支持所有操作），因此能够在 Web 之上执行操作且无需自定义 API 集成。一旦遭遇难题或者错误，Operator 还可利用其推理能力实现自我纠正。

在 OpenAI 的官方演示中，Operator 执行了餐厅预订、网购、抢勇士队比赛门票、预约清洁服务以及点外卖等多种场景的任务。然而，演示过程却不是全程一帆风顺，刚开始的演示是正常进行，但到了后半段的演示却频频“翻车”，甚至未能成功加载相关网页。

而 Operator 的官方介绍也强调，其目前仅提供研究预览版，虽然已经能够处理各类任务，但仍在学习和发展的过程当中很可能会犯错。例如，其目前在创建幻灯片或者管理日历等复杂界面中仍然表现不佳。因此，Operator 尚有局限性并将根据用户反馈进一步完善。

相比之下，智谱的 GLM-PC 已经是进行了一轮升级的“第二代”版本了。去年 11 月，GLM-PC v1.0 在 CogAgent 开源模型的基础上强化了感知、规划、创造能力，并实现有限的自我纠正现在的新版 v1.1 则在规划和推理上作了更多的优化。

根据官方介绍，GLM-PC 不仅能够处理复杂逻辑任务，还能在开放性问题上展现更高的适应能力、创造力和泛化能力，更能通过动态优化和情境感知，帮助用户探索更高效的解决方案，特别是在循环任务处理、多步推理执行以及长链条任务管理等方面。　

在实例展示中，GLM-PC 能够自动为微信群好友定制个性化新春祝福语及祝贺图片 / 视频，并通过一键操作实现群发，高效完成节日问候；能为用户快速查询航班信息，筛选最经济机票，并同步设置飞书日历提醒，实现航班查询、购票筛选到日程安排的一站式服务。　

技术水平：谁家 Agent 模型略逊一筹？

尽管都是通过人类一样“观察”和“操作”计算机来帮助用户完成各类电脑任务，但 Operator 与智谱 GLM-PC 在工作原理上也有很大不同。

Operator 由一套名为 Computer-Using Agent（计算机使用智能体，简称 CUA）的新模型提供支持，CUA 将 GPT-4o 的视觉功能与通过强化学习进行的高级推理相结合，在训练之后能够与图形用户界面（GUI）进行交互——即人们在屏幕上看到的按钮、菜单和文本字段。

而新升级的 GLM-PC 采用的是“左右脑”协作的模式，左脑负责代码生成与逻辑执行，右脑专注于深度感知与交互体验，背后的支撑是智谱自主研发的多模态 Agent 模型 CogAgent 与代码模型 CodeGeex。

具体到该智能体运转的过程，GLM-PC 是以代码形式指挥工作流程和工具调用，期间强化深度思考模式下的规划、推理、反思能力，从而能够稳定高效地应对复杂场景与任务。并且在实际执行时，GLM-PC 能感知多层环境反馈，协助反思，以有效自我纠正与优化。　

总体来看，两家发布的电脑智能体在技术路线上各有千秋。不过，有评测结果显示，CogAgent 在 GUI 定位（Screenspot）、单步操作（OmniAct）、中文 step-wise 榜单（CogAgentBench-basic-cn）、多步操作（OSWorld）都取得了不错的结果，但在 OSworld 上略逊于针对 Computer Use 特化的 Claude-3.5-Sonnet 和结合外接 GUI grounding 模型的 GPT-4o。

超级智能体的未来

下一步，OpenAI 计划很快在 API 中公开支持 Operator 的模型 CUA，以便开发人员能够使用它来构建自己的计算机使用智能体。智谱则准备将 GLM-PC 与 AIPC 深度融合。据称，智谱正与联想、华硕等知名 PC 厂商展开深度合作探讨。

“2025 年是 Agent 之年”，在各家接二连三的智能体产品发布后，许多人都如此感叹。OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 对此公开表示，“就我个人而言，我认为 2025 - 2035 年这十年是智能体的十年。要让它真正发挥作用，我感觉方方面面都有大量工作要做。但它应该能行得通。”

同时其指出，像 OpenAI 的 Operator 这样的项目之于数字世界，就如同类人机器人之于物理世界。人类

会成为低级自动化的高级主管，有点像司机监控自动驾驶系统。这种情况在数字世界发生的速度会比物理世界快，因为翻转比特的成本大约比移动原子低 1000 倍。

“未来，大家可以组建 Operator 团队，让它们执行选定的长期任务，甚至是运营一整家公司——像 CEO 一样，同时监督十个这样的团队，偶尔可能还得深入一线解决某个障碍。”

Karpathy 还透露，在 OpenAI 成立初期他们就研究过这个想法（参见 Universe 和 World of Bits 项目），但顺序有误——大语言模型必须先出现。但即便到现在，他也不能百分百确定时机是否成熟。毕竟多模态在过去一两年才勉强与大语言模型整合，而且往往是作为适配器附加的。更糟糕的是，LLM 还没有真正涉足过任务周期极长的领域。例如，当视频包含海量信息，是否能把所有信息都塞进上下文窗口（当前范式），然后还指望它能正常运行。

参考链接：

https://openai.com/index/introducing-operator/

发布

暂无评论

创作场景

OpenAI 想了快 10 年的超级智能体终于来了！有惊喜，但比智谱晚还“翻车”系数高？

功能体验：Operator“好坏参半”

技术水平：谁家 Agent 模型略逊一筹？

超级智能体的未来

评论

Git-如何优雅地回退代码，字节跳动内部学习资料泄露

Apache APISIX 2.8 正式发布，带来更多新功能！

Java反射机制的那些事儿，Java基础必背知识点

Java多态实现原理，分布式系统中ACID和CAP有什么区别

Java内联函数，SpringBoot集成Redis集群

java学习-数据类型和运算符，Java社招面经分享

JAVA学习（3，黑马Java全套百度云

Fil值得投资吗？Ipfs未来价值一万一枚？

ELK性能优化实战总结：我强任我强，美的Java面试题

GitHub-标星过万！腾讯技术官发布的，腾讯Java社招面试经验

Java已死，有事烧纸，字节跳动历年校招Java面试真题解析

Java并发编程（实战(1)，真香警告

Java中高级核心知识全面解析，张孝祥Java基础视频教程

HashMap源码解析，Java黑马程序员资源

Java 反射 getClass()，最新Java大厂高频面试题

Java-进阶：集合框架2，熬夜整理华为最新Java笔试题

JavaScript是解释型语言--V8、JIT，Java重点知识大全

Java中高级核心知识全面解析(4)，Java开发中遇到最难的问题

Java多线程入门篇，GitHub标星1w的Java架构师必备技能

Java学习路线图（如何快速学Java，Java算法题面试

Druid 集群方式部署 —— 选择硬件

Hystrix-服务容错处理：什么是Hystrix，鲁班学院二期

IDEA的中文注释引起的程序报错！，那些被大厂优化的程序员们

Java 集合容器篇面试题（上，Java中高级程序员进阶

Vue深入学习3—数据响应式原理

java 通过 SmbFile 类操作共享文件夹，膜拜大牛

Java个人学习之旅(第十天)，黑马程序员Java全套视频

J2EE基础集合框架之Map集合，公司初级程序员Java面试题

java springboot，大专生面试阿里P7居然过了

思想的懒惰

Druid 集群方式部署 —— 从独立服务器部署上合并到集群的硬件配置

创作场景

OpenAI 想了快 10 年的超级智能体终于来了！有惊喜，但比智谱晚还“翻车”系数高？

功能体验：Operator“好坏参半”

技术水平：谁家 Agent 模型略逊一筹？

超级智能体的未来

评论

电子书

大厂实战PPT下载