Google DeepMind 最近宣布了 Robotics Transformer 2(RT-2),这是一个用于控制机器人的视觉-语言-动作(VLA)的 AI 模型。RT-2 使用经过精调的 LLM 来输出运动控制命令。它可以执行训练数据中未明确包含的任务,并在新出现技能评估中将基线模型的表现提升了 3 倍。
DeepMind 训练了两个 RT-2 的变体,使用了两个不同的底层视觉-LLM 基础模型:一个基于 PaLM-E 的 12B 参数版本,以及一个基于 PaLI-X 的 55B 参数版本。LLM 在通用视觉语言数据集和机器人特定数据的混合之上进行了共同微调。该模型学会输出一个机器人运动指令向量,将其简单地视为一个整数字符串:实际上,它是模型学习的一种新语言。最终模型能够接收机器人工作区域的图像和用户命令,例如“捡起即将从桌子上掉下来的袋子”,然后生成执行任务的运动指令。根据 DeepMind 的说法:
RT-2 不仅展示了人工智能的进步如何迅速地渗透到机器人领域,它还展示了更多通用型机器人的巨大潜力。 虽然实现在以人类为中心的环境中有用的机器人方面还有大量工作要做,但 RT-2 向我们展示了一个令人兴奋的机器人的未来,它就在我们的掌握之中。
谷歌机器人技术和 DeepMind 已经发布了多个使用 LLMs 进行机器人控制的系统。2022 年,InfoQ 报道了谷歌的 SayCan,它使用 LLM 为机器人生成高级行动计划,以及 Code-as-Policies,它使用 LLM 生成执行机器人控制的 Python 代码。这两个系统都使用纯文本 LLM 来处理用户输入,视觉组件由独立的机器人模块处理。今年早些时候,InfoQ 报道了谷歌的 PaLM-E,它处理来自机器人传感器的多模态输入数据,并输出一系列高级行动步骤。
RT-2 在之前的实现 RT-1 的基础上进行了改进。RT 系列的关键思想是训练一个模型直接输出机器人指令,而不是输出运动的更高级抽象。RT-2 和 RT-1 都接受图像和任务的文本描述作为输入。然而,RT-1 使用了一系列不同的视觉模块来生成输入到 LLM 的视觉令牌,而 RT-2 使用了单一的视觉语言模型,如 PaLM-E。
DeepMind 在超过 6,000 个试验中对 RT-2 进行了评估。特别是,研究人员对其新兴能力表现感兴趣:即能够执行机器人专门训练数据中不存在的任务,但这些任务是通过其视觉语言预训练而出现的。团队将 RT-2 在三个任务类别上进行了测试:符号理解、推理和人类识别。与基准模型相比,RT-2 取得了“超过最佳基准模型平均成功率 3 倍以上”的成绩。然而,该模型未获得机器人训练数据中未包含的任何物理技能。
在 Hacker News 上对这件工作的讨论中,一位用户发表了评论:
似乎这项工作(以及许多机器人学习工作)仍然停留在位置/速度控制而不是阻抗控制阶段。这本质上是输出去哪里,可以是通过闭环控制器或开环运动规划器。这似乎极大地降低了数据需求,但感觉对我们可以完成的任务有一种根本性限制。机器人操作之所以困难是因为我们不仅需要考虑世界上正在发生的事情,还需要考虑到我们的互动如何改变它以及我们如何对此作出反应。
尽管 RT-2 尚未开源,但 RT-1 的代码和数据已经公开。
原文链接:
https://www.infoq.com/news/2023/10/deepmind-robot-transformer/
评论