AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

不怪奥特曼慌!最大对手 Anthropic 抢先让 AI 接管人类电脑,网友怒赞并喊话 OpenAI:看看人家

  • 2024-10-24
    北京
  • 本文字数:3501 字

    阅读完需:约 11 分钟

大小:1.61M时长:09:23
不怪奥特曼慌!最大对手Anthropic抢先让AI 接管人类电脑,网友怒赞并喊话OpenAI:看看人家

整理 | 华卫、核子可乐


昨日,由多位前 OpenAI 员工建立的 AI 初创公司 Anthropic 对外推出了一项引人注目的新功能,名为“计算机使用”。这项功能让大模型理解一切桌面应用程序并与之交互,包括模拟按键、点击按钮、鼠标手势和输入文本等,在计算机操作能力上已经与人类基本相当。


换句话说,Anthropic 不是为单个任务开发定制工具,而是教授模型基本计算机技能,使其能够自然地使用与人们相同的日常软件和工具。


升级后的 Claude 3.5 Sonnet 是第一个在公开测试版中提供“计算机使用”功能的模型,此番 Anthropic 对这套模型进行了全面改进,特别是在智能体编码与工具使用等任务场景下表现出色。AI 驱动图像初创公司 EverAI 的创始人 Pietro Schirano 发帖表示,Claude 3.5 Sonnet 是“世界上最好的编码模型,将它纳入日常工作流程,彻底改变了我的生活体验。”


与此同时,Anthropic 还发布了全新的 Claude 3.5 Haiku,成本和速度向最小体量系统看齐,但能够重现该公司最大体量系统的性能。据介绍,Claude 3.5 Haiku 的价格将与 Claude 3 Haiku 保持一致,但在多项重要基准测试当中都有着超越更大体量 Claude 3 Opus 模型的性能表现,其中包括一项由模型完成客服任务的测试。



Anthropic 方面表示,Claude 3.5 Haiku“在编码任务领域表现特别强劲”,同时也“非常适合支持面向用户的产品、特定子智能体任务,以及根据大量数据(包括购买历史、定价或者库存记录等)生成个性化体验等。”


现在,开发者们可以通过 Anthropic 的 API、Amazon Bedrock 以及 Google Cloud 的 Vertex AI 平台体验升级后的 Claude 3.5 Sonnet 。而 Claude 3.5 Haiku 将于本月晚些时候提供,最初作为纯文本模型,随后将提供图像输入。


当 Claude 学会用电脑


在 Anthropic 官方发布的视频中,该公司研究人员展示了新 Claude 模型如何通过计算机使用功能从不同来源处收集信息,进而填写表格、开发网站甚至是策划徒步旅行。


有网友表示为 OpenAI 捏了把汗。当然,这项新功能也有局限性。一篇关于该工具的开发博文就列举了一个测试失败的案例:它在执行编码任务的过程中半途放弃,转而开始“浏览黄石国家公园的照片”——开玩笑讲,这可能是 AI 机器人做过的最像人类的事情之一,甚至学会了拖延症。


在一项旨在测试 AI 机器人帮助完成机票操作任务(例如修改出行航班)的能力评估当中,新版 3.5 Sonnet 只成功完成了不到半数任务。而在另一项涉及申请退货等操作任务的测试中,3.5 Sonnet 的失败率同样接近三分之一。


对此,Anthropic 方面承认,升级之后的 3.5 Sonnet 在滚动和缩放等常见操作方面仍存在困难,它需要通过快速连续截屏来实现操作,而无法处理实时视频流,因此可能会错过短暂的通知或者其他变更。Anthropic 在博文中写道,“Claude 模型的’计算机使用’功能用起来仍然比较麻烦而且容易出错。我们鼓励开发人员从风险较低的任务开始进行探索。”


Anthropic 方面称,这项计算机使用功能仍处于实验阶段,他们正在对“计算机使用”功能进行测试,排查可能出现的问题,同时与开发人员合作改进功能以寻求积极的技术应用方式。目前,参与这项计算机使用功能试点的企业客户包括 Asana、Canva、Cognition、DoorDash、Replit 以及 The Browser Company。


据悉,软件开发平台 Replit 已经使用全新 3.5 Sonnet 模型的早期版本来创建“自主验证器”,用以在应用程序开发过程中对项目进行评估。在另一边,Canva 公司则表示正在探索利用这套新模型支持设计和编辑流程的可行方法。


会自我纠正并重试任务,比微软 UFO 更像人类?


计算机使用似乎正成为 AI 开发的下一个前沿领域,即 AI 模型不必通过定制工具进行交互,而是能够按照指示使用基本上任何软件。


最近被亚马逊收购的 Adept 一直在训练模型浏览网站并实现软件导航,Twin Labs 正使用现成模型(包括 OpenAI 的 GPT-4o)来自动执行桌面操作流程,消费电子初创公司 Rabbit 在开发一款能够执行在线购买电影票等操作的 Web 版智能体。有消息称,OpenAI 等人工智能厂商也一直在开发类似的工具,但目前尚未公开发布。


今年 2 月,微软基于 OpenAI 的 GPT-4V 图像识别模型,专为 Windows 操作系统交互设计的智能体框架 UFO(UI-Focused)更与其有“异曲同工”之妙。UFO 能够通过对图形用户界面(GUI)和 Windows 应用程序的控制信息进行观察和分析,在单个或跨多个应用程序内无缝导航和操作,满足用户的复杂任务请求。也就是说,有了 UFO,用户通过一句话就可以操作应用界面,比如删除 PPT 上的所有注释、设计 PPT 格式、总结会议纪要并发送邮件等。


那么,Anthropic 的方案与其他操控应用的 AI 智能体有何不同?


工作原理上,据 Anthropic 介绍,其“计算机使用”功能虽然同样需观看和解读屏幕截图,但实现操作是通过训练 Claude 模型准确计算像素。具体来讲,当开发人员要求 Claude 使用计算机软件并授予其必要的访问权限时,Claude 模型会查看用户界面中的屏幕截图,而后计算出需要垂直或者水平移动多少像素才能将光标移动至正确位置。如果没有这种能力,模型将很难对鼠标进行准确操作。



而微软 UFO 是通过应用程序选择代理 (AppAgent) 和动作选择代理 (ActAgent) 两个 Agent 来实现自动化工作。AppAgent 负责通过分析用户请求和桌面屏幕截图,选择合适的应用程序,并制定全局计划来完成任务。而 ActAgent 则负责观察当前应用程序窗口的截图,从可用控制中选取合适的控制并执行动作,最后由控制交互模块负责将 ActAgent 选择的动作转换为对应用程序的控制操作。


此外,Anthropic 方面宣称,尽管没有接受过明确训练,但升级之后的 Claude 3.5 Sonnet 还会在遇到障碍时自我纠正并重试任务,而且正向着执行包含数十甚至数百个步骤的复杂任务目标推进。并且,Anthropic 的“计算机使用”功能还涉及到模型推理,像如何以及何时执行特定操作以响应屏幕上内容等。


AI 操控电脑存在风险?Anthropic:注意数据隔离


自动化控制应用工具这条赛道已经掀起新一轮 AI 竞赛浪潮,如果这些工具按预期发展成熟,很可能在几年之后为厂商带来大量收入。Anthropic 方面也一直在向投资者传达这一信息,即其打造的 AI 工具能够以比人类更高效且更经济的方式处理大部分办公室工作。


不过,此类工具也引发了一些争论。首先是担忧“它们只是一种能让人们工作更轻松的工具”,还是“会像一颗炸弹那样让各行各业的人们失去生存空间”。另一方面,尽管 Claude 3.5 Sonnet 模型在性能方面仍有不少短板,但其是否已经具备了造成危害的基本能力?


最近一项研究发现,无法使用桌面应用程序的现有模型(如 OpenAI 的 GPT-4o)在面对越狱技术的“攻击”时,确实愿意参与到有害的“多步骤智能体操作”中来,如从暗网上的卖家手中订购假护照。研究人员表示,即使是那些受到过滤器和护栏机制保护的模型,越狱行为同样在实施有害操作方面具有很高的成功率。


可以想象,具有桌面访问权限的模型很可能会造成更大的破坏,如利用应用程序中的漏洞泄露个人信息(或者以纯文本形式存储下聊天记录)。而除了将软件作为操作杠杆之外,模型的网络浏览与应用程序连接更可能向恶意越狱者敞开大门。


Anthropic 也并不否认新发布的 3.5 Sonnet 存在风险,但辩称,相较于潜在风险,该模型在受众中的实际使用方式明显利大于弊。该公司在博文中提到,“我们认为,让目前这套功能较为有限、相对更加安全的模型早点访问计算机可能更好。这意味着我们可以开始观察并学习这套比较初级的模型会引发哪些潜在问题,同时逐步为其建立起计算机使用功能与安全缓解措施。”


Anthropic 方面还表示,他们开发了分类器以“敦促”3.5 Sonnet 远离已知的高风险行为,例如在社交媒体上发帖、创建账户以及在政府网站上执行交互操作。作为一项安全预防措施,该公司将把“计算机使用”捕捉到的任何屏幕截图至少保留 30 天。但不会利用用户的屏幕截图和提示词训练新的 3.5 Sonnet 模型,同时阻止模型在训练期间访问网络。


此外,Anthropic 公司强调,“选择使用 Claude 操作计算机的用户也应当采取相应预防措施,从而尽量减少此类风险,包括将 Claude 与电脑上高度敏感的数据隔离开来。”


有网友这样评价道,“两年前的 Anthropic:我们需要阻止 AGI 摧毁世界。现在的 Anthropic:如果我们让 AI 自由使用电脑并训练它患有多动症会怎么样?”


参考链接:


https://www.inc.com/ben-sherry/anthropic-just-released-its-most-advanced-small-ai-model-yet/90992933


https://arstechnica.com/ai/2024/10/anthropic-publicly-releases-ai-tool-that-can-take-over-the-users-mouse-cursor/


https://www.anthropic.com/news/3-5-models-and-computer-use


https://techcrunch.com/2024/10/22/anthropics-new-ai-can-control-your-pc/

2024-10-24 11:088635

评论

发布
暂无评论
发现更多内容

焱融科技入选北京市 2022 年度“专精特新”,领航混合云文件存储

焱融科技

自定义spring boot starter三部曲之三:源码分析spring.factories加载过程

程序员欣宸

Java springboot 7月月更

没有可观测性,DataOps 注定失败|TheNewStack

观测云

网络安全网格概念以及特点简单普及

行云管家

网络安全 网络安全网格

一文搞懂│什么是跨域?如何解决跨域?

前端 经验分享 跨域 7月月更

助力开发者,全方位解读 APISIX 测试案例

API7.ai 技术团队

开源 测试 APISIX 网关

了解JVM语言

沃德

Java 程序员 7月月更

【用户文章】P4合并实践指南之实例拆解Resolve

龙智—DevSecOps解决方案

P4合并 解决冲突

游戏有什么用?| 游戏应用价值研究案例征集

易观分析

游戏

【7.8-7.15】写作社区精彩技术博文回顾

InfoQ写作社区官方

优质创作周报

大数据培训 Hive 相关知识的全面总结

@零度

hive 大数据开发

直播带货系统源码

开源直播系统源码

软件测试 APP开发 直播系统源码 直播带货系统源码

阿里云E-MapReduce 极客大赛开放报名 数十万奖金等你挑战

Lily

比赛

Java实现有getMin功能的栈

工程师日月

Java 算法 7月月更

Python|类与对象

AXYZdong

Python 7月月更

24小时共享自助洗车店你见过吗

共享电单车厂家

24小时共享自助洗车 自助洗车加盟 自助洗车店

数据库每日一题---第23天:游戏玩法分析 l

知心宝贝

数据库 程序员 算法 后端 7月月更

知识干货:基础存储服务新手体验营

hum建应用专家

数据库

华为影像XMAGE:求尽世间像,终见菩提心

脑极体

【计算讲谈社】第六讲|三星堆奇幻之旅:只有云计算才能带来的体验

大咖说

云计算 三星堆 数字空间 阿里云大咖说 计算讲谈社

Apache APISIX Meetup 南京站!我们 7.30 见!

API7.ai 技术团队

API网关 APISIX Meetup Workshop

什么是真正的HTAP?(一)背景篇

StoneDB

MySQL OLAP OLTP HTAP StoneDB

用对工具,CI事半功倍

龙智—DevSecOps解决方案

ci 持续集成 ⾃动化构建 ⾃动化部署

代码合规性:开发人员使用Helix QAC的5大原因

龙智—DevSecOps解决方案

静态代码分析 Helix QAC 静态代码分析器

MySQL 添加用户并授予只能查询权限

叫练

红象云腾大数据基础平台与龙蜥社区操作系统再次完成联合测试

OpenAnolis小助手

开源 操作系统 龙蜥社区 红象云腾 兼容性互认证

5分钟快速梳理你的HTTP体系

程序员海军

前端 HTTP 7月月更

Gartner:无需数据中台,API就能胜任连接前端和后端的工作

雨果

数据中台 API

全球云市场增势迅猛,数据安全进入法治化的强监管时代

行云管家

云计算 网络安全 数据安全

无需CORS,用nginx解决跨域问题,轻松实现低代码开发的前后端分离

葡萄城技术团队

nginx 前后端分离 cros

Dimitra 和 Ocean Protocol 解读农业数据背后的秘密

股市老人

不怪奥特曼慌!最大对手Anthropic抢先让AI 接管人类电脑,网友怒赞并喊话OpenAI:看看人家_生成式 AI_华卫_InfoQ精选文章