谷歌发布史上最大AI模型 PaLM-E：5620 亿参数，无需特殊训练可操纵机器人

本周一，来自谷歌和柏林工业大学的 AI 研究团队推出了 PaLM-E，这是一种多模态视觉语言模型（VLM），具有 5620 亿个参数，集成了可控制机器人的视觉和语言能力。据称这是有史以来规模最大的视觉语言模型，能够执行各种任务且无需重新训练，这套与 ChatGPT 有几分相似的 AI 模型新增视觉功能。

根据谷歌的介绍，只要给出一条高级命令，比如“把抽屉里的脆片拿给我”，PaLM-E 就能为机械手臂平台（由 Google Robotics 开发）生成相应的操纵指令。

在演示视频中，由 PaLM-E 控制的机械臂正伸手取一袋薯片。

PaLM-E 的基本工作原理，是分析机器人摄像头采集到的数据，且无需对场景表示做任何预处理。该模型消除了对数据预处理和标注的需求，有望将机器人的自主水平提升至新的层次。

谷歌称，该模型还具有一定弹性，能够对周边环境做出反应。例如，PaLM-E 模型能够引导机器人从厨房中取出袋装薯片，并通过将 PaLM-E 集成至控制回路当中，能够应对执行期间可能发生的意外状况。此外，同一套 PaLM-E 模型能成功通过复杂的指令序列实现了对机器人的自主控制，以往这类任务只能由人类引导完成。

谷歌在研究论文中解释了 PaLM-E 如何将指令转化为行动：我们展示了 PaLM-E 面对具有挑战性的多样移动操作中，表现出的实际性能。我们主要参考 Ahn 等人的设置方案（2022 年），机器人需要根据人类的指令规划一系列导航与操作动作。例如，给出指令“我把饮料弄洒了，能给我拿东西清理一下吗？”，机器人就会规划一连串“1. 找清洁棉；2. 捡起清洁棉；3. 递给用户；4. 放下清洁棉”的行动。受任务启发，我们设计出三个用例来测试 PaLM-E 的具身推理能力，具体包括可供性预测、故障检测和长期规划。低级策略来自 RT-1（Brohan 等人，2022 年），这是一套采用 RGB 图像加自然语言指令、能够向末端执行器输出控制命令的 transformer 模型。

PaLM-E 到底是个啥？

PaLM-E 是一款下一令牌预测器，取名“PaLM-E”是因为其基于谷歌的 PaLM 大语言模型（LLM，与 ChatGPT 的底层技术相似）。谷歌进一步向其中添加了感官信息和机器人控制功能，帮助 PaLM 实现了“具身化”。

由于基于语言模型，PaLM-E 会进行连续观察，例如接收图像或传感器数据，并将其编码为一系列与语言令牌大小相同的向量。如此一来，模型就能继续以处理语言的方式“理解”感官信息。

除了 RT-1 机器人 transformer 之外，PaLM-E 还借鉴了谷歌之前在 ViT-22B 上的经验积累——今年 2 月发布的视觉 transformer 模型。ViT-22B 已经接受过各种视觉任务训练，包括图像分类、对象检测、语义分割和图像描述。

Google Robotics 并不是唯一尝试使用神经网络进行机器人控制的研究小组。这项特殊工作与微软最近发布的《ChatGPT for Robotics》论文有相通之处，该文章也尝试以类似方式将视觉数据同大语言模型相结合，探索对机器人进行控制。

除了机器人技术之外，谷歌研究人员还观察到其他一些有趣的效果，其明显来自 PaLM-E 的大语言模型核心。首先，它表现出了“正迁移”，又称助长式迁移，意味着它能把一项任务中学到的知识和技能迁移至另一项任务，而且与单任务机器人模型相比具有“明显更高的性能水平”。

谷歌称正在探索 PaLM-E 模型更多应用场景

此外，研究人员还观察到模型规模有越来越大的趋势：“语言模型越大，在视觉语言和机器人任务训练时就越能保持住这种语言能力。从数量上讲，5620 亿参数的 PaLM-E 模型几乎保留了全部的语言能力。”

在另一不同领域，同一套 PaLM-E 模型能够实时控制机器人。在此之前，机器人还需要人工引导才能完成很长的操作任务（interactive-language.github.io），但现在 PaLM-E 已经能够自主学习这些任务。

谷歌称，“PaLM-E 是迄今为止已公开的最大视觉语言模型。我们观察到，尽管只接受了单图像提示训练，但 PaLM-E 仍然掌握了多模态思维推理和多图像推理等新能力。虽然不是我们的工作重点，PaLM-E 在 OK-VQA 基准测试上创下新的同类最佳性能”。

研究人员宣称，PaLM-E 还展现出随机应变的能力，例如尽管只接受过单图像提示训练，仍可实现多模态思维链推理（允许模型对包含语言和视觉信息在内的一系列输入进行分析）和多图像推理（同时使用多张输入图像进行推理或预测）。从这个角度看，随着深度学习模型变得越来越复杂，PaLM-E 似乎正带给我们更多惊喜。

谷歌研究人员还计划探索 PaLM-E 模型在现实场景中的更多应用，例如家庭自动化或工业机器人。他们希望 PaLM-E 能够启发出更多关于多模态推理和具身化 AI 的研究。

如今“多模态”已经成为新的流行语。相信随着企业着力研发具备类人常规任务执行能力的人工通用智能（AGI），多模态的大名也将越来越多为人们所听闻。

参考链接：

https://arstechnica.com/information-technology/2023/03/embodied-ai-googles-palm-e-allows-robot-control-with-natural-commands/

创作场景

谷歌发布史上最大 AI 模型 PaLM-E：5620 亿参数，无需特殊训练可操纵机器人

PaLM-E 到底是个啥？

谷歌称正在探索 PaLM-E 模型更多应用场景