写点什么

智谱发布自主 Agent 全家桶,目标:让打工人实现“光说不干”!

  • 2024-11-29
    北京
  • 本文字数:1790 字

    阅读完需:约 6 分钟

大小:891.68K时长:05:04
智谱发布自主Agent全家桶,目标:让打工人实现“光说不干”!

整理 |华卫

 

“来自 AI 的微信红包已派发,请查收!”

 

在今天的智谱 OpenDay 现场,智谱 CEO 张鹏只向 AutoGLM 下达了一个简单语音指令,就成功执行了这个操作。

 

现场,智谱带来了多个通过 Agent 操作手机、电脑,甚至手机电脑联动的新进展:

  • AutoGLM 可以自主执行超过 50 步的长步骤操作,也可以跨 app 执行任务

  • AutoGLM 开启“全自动”上网新体验,支持等数十个网站的无人驾驶

  • 像人一样操作计算机的 GLM-PC 启动内测,基于视觉多模态模型实现通用 Agent 的技术探索

 

此外,张鹏还展示了通过手机给 GLM-PC 发消息,让 GLM-PC 自动进行发送文件等电脑操作的过程。据介绍,GLM-PC 还可以在开机状态下执行定时任务,比如定时发日报等。

 

原本对于机器而言非常复杂的操作,现在可以由智谱产品化的 Agent 完成,大模型正在从只有对话功能的 Chatbot 走向能够进行实际物理操作的自主 Agent。张鹏表示,“Agent 将极大地提升 L3 使用工具能力,同时开启对 L4 自我学习能力的探索。”

 

AutoGLM 新升级:挑战更复杂

 

在张鹏看来,Agent 可以看作是大模型通用操作系统 LLM-OS 的雏形。

 

“现阶段,AutoGLM 相当于在人与应用之间添加一个执行的调度层,很大程度上改变人机的交互形式。更重要的是,我们看到了 LLM-OS 的可能,基于大模型智能能力(从 L1 到 L4 乃至更高),未来有机会实现原生的人机交互。将人机交互范式带向新的阶段。”

 

据张鹏介绍,新升级的 AutoGLM 可以挑战完成以下复杂任务:

 

1. 超长任务:理解超长指令,执行超长任务。例如,在采购火锅食材的例子中,AutoGLM 自主执行了 54 步无打断操作。并且,在这种多步、循环任务中,AutoGLM 的速度表现超过人手动操作。

2. 跨 app :AutoGLM 支持跨 App 来执行任务。用户可以习惯于 AI 自动处理,而不是在多个 APP 间来回切换。由于目前 AutoGLM 形态更像是用户和应用间的 APP 执行的调度层,因此跨 App 能力是里面非常关键的一步。

3. 短口令:AutoGLM 能够支持长任务的自定义短语。

4. 随便模式:AutoGLM 可以主动帮用户做出决策,带来抽盲盒式的惊喜。

 

支持核心场景和核心应用的 AutoGLM 标品 API,会在两周内上线到智谱 maas 开放平台(bigmodel.cn)试用。同时,AutoGLM 启动大规模内测,并将尽快上线成为面向 C 端用户的产品。(autoglm-安卓:https://agent.aminer.cn/

 

Web 端也将开启“全自动”上网新体验,即日起智谱清言插件上线 AutoGLM 功能,支持搜索、微博、知乎、Github 等数十个网站的“无人驾驶”。(清言插件:https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday

 

GLM-PC :面向“无人驾驶”PC 的技术探索

 

不只是基于手机和浏览器,智谱还带来了基于 PC 的自主 Agent。

 

据其介绍,GLM-PC 的技术路线是一种拟人的多模态的感知,基于智谱自研的 UI Agent 视觉基座模型 CogAgent。模型仅需视觉截图作为输入,无需依赖 HTML 等语言表征,可应用至任意图形用户界面,具备极强的跨平台、跨系统泛化能力。

 

glm-pc:https://www.wjx.top/vm/mOs9cHw.aspx

 

简单来说,GLM-PC 用电脑的方式几乎完全和人一样。人在电脑上办公的过程是,用眼看图形、图像、文字,然后用脑规划,再用手执行单击双击、滚动、输入、悬浮等操作。GLM-PC 同样也是把用电脑的动作拆解如上,最终准确输出具体动作(精确至坐标)。

 

也正因如此,理论上只要是为人类设计的应用,在 GLM-PC 学习之后它都能够执行。这是一种系统级、跨平台的能力,不依赖于 HTML、API,而且具备更高的能力上限。

 

目前开放第一阶段的内测场景,包括:

1. 会议替身:帮用户预定和参与会议,发送会议总结。

2. 文档处理:支持文档下载、文档发送、理解和总结文档。

3. 网页搜索与总结:在指定平台(如微信公众号、知乎、小红书等)搜索指定关键词,完成阅读、总结。

4. 远程和定时操作:远程手机发指令,GLM-PC 可以自主完成电脑操作;设定一个未来时间,在开机状态下定时执行任务。

5. 隐形屏幕:在用户工作时,GLM-PC 可以在隐形屏幕上自主完成工作,解放屏幕使用权。

 

不过,GLM-PC 在当前版本下,用户仍需要输入非常精准的指令。张鹏解释道,由于 PC 的复杂程度,以及大家在 PC 完成的几乎都是复杂任务,今天大模型的能力距离真正代替办公还有一定距离。

 

但张鹏表示,未来 GLM 团队将继续加速 Agent 模型产品的研发,期待着一句话操作电脑和手机的范式尽快到来。到那时,Agent 或许真有望帮助打工人实现“光说不干”的一天。

 

2024-11-29 23:249723

评论

发布
暂无评论
发现更多内容

使用通义灵码,参与开源项目全程纪实

阿里云云效

阿里云 云原生 通义灵码

云栖3天,云原生+ AI 多场联动,新产品、新体验、新探索

阿里巴巴云原生

阿里云 云原生

店铺信息全掌握:拍立淘API中的卖家与店铺数据

技术冰糖葫芦

API Gateway api 货币化 API 接口 API 测试 pinduoduo API

ByteHouse新一代云数仓关键技术及最佳实践

字节跳动数据平台

数据库 大数据 云原生 Clickhouse 数仓

阿里云函数计算 x NVIDIA 加速企业 AI 应用落地

阿里巴巴云原生

阿里云 云原生 函数计算

期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟

阿里巴巴云原生

阿里云 AI 云原生

快手B端商业化技术探索:基于LLM构建智能RAG与Agent平台

快手技术

大模型 LLM rag

降本 60%!小熊油耗使用阿里云 SAE 更加稳定可靠

阿里巴巴云原生

阿里云 云原生

低代码开发与中台赋能的思考应用

快乐非自愿限量之名

低代码

一文夯实并发编程的理论基础

EquatorCoco

编程 开发语言

“AI+Security”系列第3期(三):大模型在网络安全检测及运营场景的探索及应用

云起无垠

反问面试官3个ThreadLocal的问题

快乐非自愿限量之名

Java 面试

云栖实录 | 阿里云 OpenLake 解决方案重磅发布:多模态数据统一纳管、引擎平权联合计算、数据共享统一读写

阿里云大数据AI技术

人工智能 大数据 阿里云 云栖大会 OpenLake

AutoCAD 2022注册机及序列号- cad2022中文版详细安装教程

理理

IoTDB 论文入选三大数据库顶会:ICDE、SIGMOD、VLDB 收录自研成果!

Apache IoTDB

望繁信科技入选中国信通院“铸基计划”,流程智能引领企业数字化变革

望繁信科技

数字化转型 流程挖掘 铸基计划 流程资产 流程智能

第68期 | GPTSecurity周报

云起无垠

重磅!阿里云可观测产品家族全新升级,AI +数据双驱动,打造全栈可观测体系

阿里巴巴云原生

阿里云 云原生 可观测

科研利器MestReNova ,助力NMR数据解读!

理理

使用通义灵码,参与开源项目全程纪实

阿里巴巴云原生

阿里云 云原生 通义灵码

DNS解析常见问题:什么是DNS泛解析?如何设置泛解析?

国科云

用二维码收集信息时,在后台可以查看、统计哪些数据?

草料二维码

低代码 无代码 无代码平台 低代码起源 草料二维码

海外云服务器与传统服务器的对比与选择

Ogcloud

服务器 云主机 云服务器 云主机厂商 海外云服务器

Web3 游戏周报(9.15-9.21)

Footprint Analytics

链游

Footprint Analytics: 我们为何打造 Growthly 这款产品

Footprint Analytics

区块链+

从0到1搭建权限管理系统系列三 .net8 JWT创建Token并使用

不在线第一只蜗牛

Java .net

函数计算 FC:首发 GPU 极速模式,更弹性、更降本

阿里巴巴云原生

阿里云 云原生 函数计算

期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟

阿里云云效

阿里云 云原生 通义灵码

云手机运营电商对比真机有什么优势?

Ogcloud

云手机 海外云手机 电商云手机 云手机群控 海外社媒营销

面试官:项目中如何实现分布式锁?

王磊

携手SelectDB,观测云实现性能与成本的双重飞跃

观测云

监控

智谱发布自主Agent全家桶,目标:让打工人实现“光说不干”!_生成式 AI_华卫_InfoQ精选文章