写点什么

谷歌发布史上最大 AI 模型 PaLM-E:5620 亿参数,无需特殊训练可操纵机器人

  • 2023-03-09
    北京
  • 本文字数:1938 字

    阅读完需:约 6 分钟

谷歌发布史上最大AI模型 PaLM-E:5620 亿参数,无需特殊训练可操纵机器人

本周一,来自谷歌和柏林工业大学的 AI 研究团队推出了 PaLM-E,这是一种多模态视觉语言模型(VLM),具有 5620 亿个参数,集成了可控制机器人的视觉和语言能力。据称这是有史以来规模最大的视觉语言模型,能够执行各种任务且无需重新训练,这套与 ChatGPT 有几分相似的 AI 模型新增视觉功能。


根据谷歌的介绍,只要给出一条高级命令,比如“把抽屉里的脆片拿给我”,PaLM-E 就能为机械手臂平台(由 Google Robotics 开发)生成相应的操纵指令。



在演示视频中,由 PaLM-E 控制的机械臂正伸手取一袋薯片。


PaLM-E 的基本工作原理,是分析机器人摄像头采集到的数据,且无需对场景表示做任何预处理。该模型消除了对数据预处理和标注的需求,有望将机器人的自主水平提升至新的层次。


谷歌称,该模型还具有一定弹性,能够对周边环境做出反应。例如,PaLM-E 模型能够引导机器人从厨房中取出袋装薯片,并通过将 PaLM-E 集成至控制回路当中,能够应对执行期间可能发生的意外状况。此外,同一套 PaLM-E 模型能成功通过复杂的指令序列实现了对机器人的自主控制,以往这类任务只能由人类引导完成。


谷歌在研究论文中解释了 PaLM-E 如何将指令转化为行动:我们展示了 PaLM-E 面对具有挑战性的多样移动操作中,表现出的实际性能。我们主要参考 Ahn 等人的设置方案(2022 年),机器人需要根据人类的指令规划一系列导航与操作动作。例如,给出指令“我把饮料弄洒了,能给我拿东西清理一下吗?”,机器人就会规划一连串“1. 找清洁棉;2. 捡起清洁棉;3. 递给用户;4. 放下清洁棉”的行动。受任务启发,我们设计出三个用例来测试 PaLM-E 的具身推理能力,具体包括可供性预测、故障检测和长期规划。低级策略来自 RT-1(Brohan 等人,2022 年),这是一套采用 RGB 图像加自然语言指令、能够向末端执行器输出控制命令的 transformer 模型。

PaLM-E 到底是个啥?


PaLM-E 是一款下一令牌预测器,取名“PaLM-E”是因为其基于谷歌的 PaLM 大语言模型(LLM,与 ChatGPT 的底层技术相似)。谷歌进一步向其中添加了感官信息和机器人控制功能,帮助 PaLM 实现了“具身化”。


由于基于语言模型,PaLM-E 会进行连续观察,例如接收图像或传感器数据,并将其编码为一系列与语言令牌大小相同的向量。如此一来,模型就能继续以处理语言的方式“理解”感官信息。


除了 RT-1 机器人 transformer 之外,PaLM-E 还借鉴了谷歌之前在 ViT-22B 上的经验积累——今年 2 月发布的视觉 transformer 模型。ViT-22B 已经接受过各种视觉任务训练,包括图像分类、对象检测、语义分割和图像描述。


Google Robotics 并不是唯一尝试使用神经网络进行机器人控制的研究小组。这项特殊工作与微软最近发布的《ChatGPT for Robotics》论文有相通之处,该文章也尝试以类似方式将视觉数据同大语言模型相结合,探索对机器人进行控制。


除了机器人技术之外,谷歌研究人员还观察到其他一些有趣的效果,其明显来自 PaLM-E 的大语言模型核心。首先,它表现出了“正迁移”,又称助长式迁移,意味着它能把一项任务中学到的知识和技能迁移至另一项任务,而且与单任务机器人模型相比具有“明显更高的性能水平”。

谷歌称正在探索 PaLM-E 模型更多应用场景


此外,研究人员还观察到模型规模有越来越大的趋势:“语言模型越大,在视觉语言和机器人任务训练时就越能保持住这种语言能力。从数量上讲,5620 亿参数的 PaLM-E 模型几乎保留了全部的语言能力。”



在另一不同领域,同一套 PaLM-E 模型能够实时控制机器人。在此之前,机器人还需要人工引导才能完成很长的操作任务(interactive-language.github.io),但现在 PaLM-E 已经能够自主学习这些任务。



谷歌称,“PaLM-E 是迄今为止已公开的最大视觉语言模型。我们观察到,尽管只接受了单图像提示训练,但 PaLM-E 仍然掌握了多模态思维推理和多图像推理等新能力。虽然不是我们的工作重点,PaLM-E 在 OK-VQA 基准测试上创下新的同类最佳性能”。


研究人员宣称,PaLM-E 还展现出随机应变的能力,例如尽管只接受过单图像提示训练,仍可实现多模态思维链推理(允许模型对包含语言和视觉信息在内的一系列输入进行分析)和多图像推理(同时使用多张输入图像进行推理或预测)。从这个角度看,随着深度学习模型变得越来越复杂,PaLM-E 似乎正带给我们更多惊喜。


谷歌研究人员还计划探索 PaLM-E 模型在现实场景中的更多应用,例如家庭自动化或工业机器人。他们希望 PaLM-E 能够启发出更多关于多模态推理和具身化 AI 的研究。


如今“多模态”已经成为新的流行语。相信随着企业着力研发具备类人常规任务执行能力的人工通用智能(AGI),多模态的大名也将越来越多为人们所听闻。


参考链接:

https://arstechnica.com/information-technology/2023/03/embodied-ai-googles-palm-e-allows-robot-control-with-natural-commands/

2023-03-09 12:5911126
用户头像
李冬梅 加V:busulishang4668

发布了 940 篇内容, 共 533.3 次阅读, 收获喜欢 1105 次。

关注

评论

发布
暂无评论
发现更多内容

c++17使用多线程编程的时候在编译时要怎么处理

linux大本营

多线程 C++

人脸识别:城市公共交通

百度开发者中心

人工智能 人脸识别

ThingsBoard 前端项目内置部件开发

echeverra

thingsboard

百度与用友网络签署战略合作

百度开发者中心

智能制造 文心一言

法大大发布数智化签约管理平台,赋能企业高效增长

人称T客

少年与阿童木:一场软件竞技赛背后的智能未来

脑极体

机器人 华为云

linux设置虚拟IP

linux大本营

Linux 网络 IP地址

耗时72天!终于把GitHub上热度最高的Java面试八股文整理出来了,涵盖多家大厂面试真题

架构师之道

Java 面试

作为前端你还不懂MutationObserver?那Out了

不叫猫先生

JavaScript 前端 三周年连更 MutationObserver

人工智能时代来临,殊不知低代码早已出手

加入高科技仿生人

人工智能 低代码 数智化 数智融合

为什么老有人想让我们“程序员”失业? | 社区征文

不叫猫先生

人工智能 程序人生 ChatGPT 三周年征文

KubeVela:一场向应用交付标准的“冲锋”

RRLL

阿里云 数据湖 云原生 KubeVela 应用交付

从 Milvus 2.2 到 2.2.6,我们是如何持续稳定升级的

Zilliz

非结构化数据 Milvus 向量数据库

c++单例模式的所有面经

linux大本营

设计模式 单例模式 C++

使用tc+iptables对指定的socket进行限速

linux大本营

TCP socket 网络 iptables

大淘宝技术斩获NTIRE 2023视频质量评价比赛冠军(内含夺冠方案)

阿里巴巴大淘宝技术

视频 NTIRE

人工智能训练数据集:基础与发展

来自四九城儿

有奖征文丨【玩转Cloud Studio】第二季来啦!

CODING DevOps

Cloud Studio 云端IDE 在线编程 有奖征文 活动推荐

招商基金数字化转型下的研发管理|标杆案例

万事ONES

测试Java初学者建议

FunTester

读《分布式商业》有感

后台技术汇

分布式 三周年连更

5.10版本linux内核的使用slub的kmem_cache_init函数解析

linux大本营

内存管理 Linux内核 slub slab

智汇昌平,数赢未来——宝德京产自主创新服务器正式下线

Geek_2d6073

Cloud Studio 一个好用的在线编程工具

CODING DevOps

开发 部署 Cloud Studio 云端IDE 在线编程

极客时间「大师课·深度剖析 RocketMQ5.0」上线啦,欢迎免费领取!

Apache RocketMQ

云原生 消息队列

软件测试/测试开发丨uiautomator2 自动化测试工具使用

测试人

软件测试 自动化测试 测试开发 uiautomator

阿里内部微服务架构秘籍:SpringCloudAlibaba全彩版笔记开源

采菊东篱下

编程 微服务

iOS MachineLearning 系列(5)—— 视频中的物体运动追踪

珲少

低代码是开发的未来,还是只能解决边角问题的鸡肋?

引迈信息

前端 后端 低代码 JNPF

《雄安新区2022年大数据研究报告》发布

百度开发者中心

智慧城市

谷歌发布史上最大AI模型 PaLM-E:5620 亿参数,无需特殊训练可操纵机器人_AI&大模型_Benj Edwards_InfoQ精选文章