写点什么

谷歌版贾维斯意外泄露!自主上网购物填表不在话下,“钢铁侠 ”成真指日可待?

  • 2024-11-11
    北京
  • 本文字数:2467 字

    阅读完需:约 8 分钟

大小:1.10M时长:06:26
谷歌版贾维斯意外泄露!自主上网购物填表不在话下,“钢铁侠 ”成真指日可待?

整理 | 华卫、核子可乐


一场意外泄露事件后,谷歌这位科技巨头无意之中证实了其先进人工智能“Jarvis”的存在。据了解,Jarvis 能够访问网站、在获得用户许可的情况下进行在线购物,甚至填写表格。基于 Chrome 平台的 AI,也将是这款浏览器自 2008 年推出以来规模最大的功能升级。


不久前,谷歌意外泄露了最新 AI 发展成果 Jarvis 的“内部预览版”。Jarvis 原本是《钢铁侠》电影中 Tony Stark 的人工智能助手的首字母缩写词,全称为 “Just Another Very Intelligent System”。就像《钢铁侠》电影一样,Jarvis 应该是一个代理型人工智能,即只需要很少或不需要人类输入就能执行任务的自主系统。


被泄露的文件最初被发布在谷歌自己的云平台之上,在存留期间,其内容显示谷歌打造了一款能够浏览互联网并自主检索信息的 AI 智能体。


Jarvis 或将接管 Chrome 浏览器


据外媒报道,该 AI 智能体于本周二在 Chrome 浏览器网络商店中作为扩展程序短暂提供下载,并被描述为 “与你一起上网的好伙伴”。


可惜的是,该扩展程序虽然可以下载,但需要某些用户无法绕过的访问权限。有人在该扩展程序被删除之前抢先完成了安装,但尚无法正常使用。当天晚些时候,该扩展程序已从网络商店删除。


Jarvis 无意中出现在 Chrome 浏览器网店上,证实了之前有关谷歌正在开发这一产品的报道。


10 月底,有外媒报道称,谷歌也正在开发一种可以通过简单命令来接管计算机的 AI 工具,该工具在内部被称为 Project Jarvis,能够代表用户浏览网页,并执行购买产品和预订航班等任务。


与依赖预加载数据的现有 AI 工具不同,Jarvis 能够搜索网络并为用户提供检索实时数据的能力,从而绕过传统搜索引擎。简而言之,它基本上接管了 Chrome 网络浏览器来为用户执行任务。


报道指出,该工具的工作原理是截取计算机屏幕的屏幕截图,并“在执行单击按钮或输入文本字段等操作之前对截图进行解读”,这与微软此前备受争议的 Recall 功能非常相似,尽管后者用于存储和检索用户的计算机行为(目前微软宣称该项目将“稍后”亮相,且最初只开放给 Windows Insider 计划成员)。


Jarvis 的功能似乎是谷歌 Bard AI 的延伸,可以将自然语言理解与高级数据检索功能相结合。这种向实时数据响应的转变也代表着传统聊天机器人的最新发展方向。传统聊天机器人往往受到训练数据的限制,因此只能根据特定日期之前的信息回答问题。


报道还提到出,该工具目前的反应速度有些慢,“因为模型在采取每个动作之前需要思考几秒钟”。这表明,Jarvis 可能还没有准备好进入黄金时段。当时的消息称,谷歌计划在 12 月公开推出 Jarvis,同时推出的还有最新版本的 Gemini 大型语言模型。


现在,有熟悉谷歌内情的消息人士表示,Jarvis 本打算在对外发布之前进行内部试点测试。然而,此番意外泄露让不少人猜测谷歌恐怕会提前正式发布的时间。


AI 智能体操控屏幕的未来将至


上个月,当 Anthropic 推出名为“计算机使用 ”的新功能,基本上可以接管用户的计算机来读取和编写 JavaScript 代码时,我们的认知从 “《钢铁侠》只是一部电影 ”变成了 “这正在发生”。现在,谷歌的 Jarvis AI 智能体似乎要让 “钢铁侠 ”幻想成真了。


只不过,Claude 是为程序员量身定制的,用于操作软件应用程序,而 Jarvis 与之不同,据说它是基于浏览器的,可以想象它将面向更主流的受众市场。


据外媒报道,OpenAI 也在开发这类自主 AI 智能体。此次谷歌 Jarvis AI 意外泄露事件就发生在 OpenAI o1 模型泄露的几天之后,后者同样意外曝光了一款能够分析图像、访问网络搜索结果及数据分析等工具的新推理模型,可能很快就会发展出更多的自主网页浏览功能。


几天前的 OpenAI 伦敦开发者大会上,Sam Altman 在与 20VC 创始人 Harry Stebbings 的对谈中,就对 AI 智能体进行了这样的定义:能够接受长期任务,且在执行过程中几乎不需要监督。他举例说,“假设不是让 AI 智能体给一家餐厅打电话订餐,而是让它同时联系 300 家餐厅,找出哪家最适合或者有优惠。我认为更有意思的是那种像一位聪明的资深同事一样,能与你在项目中真正协作的智能体。”


在最近的一次 Reddit AMA 中,OpenAI 首席产品官 Kevin Weil 也暗示道,ChatGPT 将首先具备向用户发送消息的能力,而为用户执行任务将是他们 “2025 年的一大主题”。


微软团队上月低调开源的 OmniParser,在 Hugging Face 上迅速大受欢迎的同时,似乎也预示着 AI 智能体操控屏幕的未来。OmniParser 是一款解析和识别屏幕布局的 AI 工具,能够提取文本、按钮和图标等重要信息,还可以将这些元素转换成结构化的数据,精准理解用户意图,可以帮助开发者自主创建用于操控电脑或手机界面的智能体。


并且,OmniParser 并不局限于网络浏览器或移动应用程序等特定的环境,它的目标是成为任何支持视觉的 LLM 与从桌面到嵌入式屏幕等各种数字界面进行交互的工具。据悉,GPT-4V 在使用 OmniParser 输出后,图标的正确标记率从 70.5% 提升至 93.8%。


此外,Apple Intelligence 也承诺通过其“屏幕感知”功能实现同样的功能。它会观察用户的活动并将发现输入到系统当中,以便下次以智能方式代替用户执行这些任务。


结   语


对谷歌来说,提高工作效率和自动化某些琐碎的任务是其许多 AI 产品寻找杀手级用例的方向。谷歌也在 Workspace 应用程序中引入了生成式 AI 功能,包括谷歌 Docs(文档)、Gmail、Sheets(表格)和 Slides(幻灯片)。


而关于此次意外泄露的“内部预览版”Jarvis,近期已有不少类似可以通过简单命令来接管计算机的 AI 智能体出现在大众视线里。需要注意的是,随着这类 AI 驱动浏览变得愈发普遍,围绕数据透明度、访问私人内容和网络数据的道德使用引发的问题也可能进一步激化。


参考链接:


https://www.theinformation.com/briefings/google-accidentally-reveals-jarvis-ai-that-takes-over-computers


https://mashable.com/article/google-accidentally-leaked-new-ai-tool-browses-internet-for-you


https://www.tomsguide.com/ai/google-confirms-jarvis-ai-after-accidental-leak-heres-what-we-know


https://www.androidpolice.com/google-gemini-project-jarvis-ai-agent/


2024-11-11 14:354562

评论

发布
暂无评论
发现更多内容

我的 Obsidian 笔记跨设备同步方案

专注前端开发

工具 笔记 Obsidian

【从零开始学爬虫】采集全国各行业经销商网点数据

前嗅大数据

大数据 爬虫 数据采集 爬虫教程 爬虫入门

九州八荒录H5游戏详细图文架设教程

echeverra

游戏开发

提高代码质量!详解在Gradle项目中使用PMD的正确姿势

树上有只程序猿

Gradle

鸿煦科技刘敏:小程序云开发降本增效实践之路

TRaaS

小程序 支付宝 开发

Java构建树结构的公共方法

高端章鱼哥

java基础 树结构

伙伴云「页面」上线!网站、博客、资源库、文档、周报,拖拽即刻实现

联营汇聚

大型企业数智化转型,工程化体系建设至关重要

用友BIP

数智底座

Cloud Kernel SIG 月度动态:支持龙芯和申威架构,合入两个内存新特性

OpenAnolis小助手

开源 架构 内存 内核 龙蜥sig

@开源技术爱好者,龙蜥邀您一起玩转系统运维 MeetUp

OpenAnolis小助手

Linux 系统运维 ebpf Meetup 龙蜥社区

你了解Vue3组合式API吗?

OpenTiny社区

Vue 前端框架 开源组件库

给世界一个更好的选择,“龙蜥+超级探访”首期嘉宾预告片震撼来袭!

OpenAnolis小助手

开源 操作系统 龙蜥社区 统信软件 超级探访

git撤销某一次commit提交

树上有只程序猿

git

软件测试/测试开发丨Python 装饰器 学习笔记

测试人

Python 程序员 软件测试 装饰器 测试开发

从税务管理的数智化转型之路中我们能看到什么?

用友BIP

税务管理

前端程序员入门:先学Vue3还是Vue2?

互联网工科生

vue.js Vue 前端

当流计算邂逅数据湖:Paimon 的前生今世

Apache Flink

大数据 flink 实时计算

QQ开展外挂专项整治,守护用户社交环境安全

Geek_2d6073

资源成本降低70%!华为MetaERP资产核算的Serverless架构实践

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

MySQL 的解析器以及 MySQL8.0 做出的改进 | StoneDB技术分享 #2

StoneDB

MySQL 数据库 HTAP StoneDB

金山云与平凯星辰达成全面战略合作 技术创新模式助力企业数字化转型

PingCAP

金山云 数字化 TiDB pingCAP 平凯星辰

架构训练营模块一作业

Kleven

架构实战营

一文帮你全面认识方天视窗引擎

openEuler

Linux 开源 操作系统 openEuler 视窗引擎

香港VPS大揭秘:轻松打造超高流量网站

一只扑棱蛾子

VPS 香港VPS

WIFI7 QCN9274 -WIFI6E QCN9074 chip difference MU-MIMO+TWT technology

wifi6-yiyi

wifi6 WiFi7

【福利活动】深度体验OpenHarmony对接华为云IoT

OpenHarmony开发者

OpenHarmony

HTML5智慧景区三维可视化管理平台

2D3D前端可视化开发

智慧景区 智慧旅游 景区三维可视化 数字景区 智慧景区系统

四步法建立企业内部人才市场

用友BIP

人力资源

一键登录教你如何解决APP通讯诈骗问题

MobTech袤博科技

App

灵动AI推出业内首个工业级“AI商品图”生成工具 并获小米联合创始人黎万强天使投资

TE智库

谷歌版贾维斯意外泄露!自主上网购物填表不在话下,“钢铁侠 ”成真指日可待?_AI&大模型_华卫_InfoQ精选文章