【AICon】 如何构建高效的 RAG 系统?RAG 技术在实际应用中遇到的挑战及应对策略?>>> 了解详情
写点什么

Google DeepMind 宣布基于 LLM 的机器人控制器 RT-2

  • 2023-10-24
    北京
  • 本文字数:1246 字

    阅读完需:约 4 分钟

大小:620.62K时长:03:31
Google DeepMind 宣布基于LLM的机器人控制器 RT-2

Google DeepMind 最近宣布了 Robotics Transformer 2(RT-2),这是一个用于控制机器人的视觉-语言-动作(VLA)的 AI 模型。RT-2 使用经过精调的 LLM 来输出运动控制命令。它可以执行训练数据中未明确包含的任务,并在新出现技能评估中将基线模型的表现提升了 3 倍。

 

DeepMind 训练了两个 RT-2 的变体,使用了两个不同的底层视觉-LLM 基础模型:一个基于 PaLM-E 的 12B 参数版本,以及一个基于 PaLI-X 的 55B 参数版本。LLM 在通用视觉语言数据集和机器人特定数据的混合之上进行了共同微调。该模型学会输出一个机器人运动指令向量,将其简单地视为一个整数字符串:实际上,它是模型学习的一种新语言。最终模型能够接收机器人工作区域的图像和用户命令,例如“捡起即将从桌子上掉下来的袋子”,然后生成执行任务的运动指令。根据 DeepMind 的说法:


RT-2 不仅展示了人工智能的进步如何迅速地渗透到机器人领域,它还展示了更多通用型机器人的巨大潜力。 虽然实现在以人类为中心的环境中有用的机器人方面还有大量工作要做,但 RT-2 向我们展示了一个令人兴奋的机器人的未来,它就在我们的掌握之中。

 

谷歌机器人技术和 DeepMind 已经发布了多个使用 LLMs 进行机器人控制的系统。2022 年,InfoQ 报道了谷歌的 SayCan,它使用 LLM 为机器人生成高级行动计划,以及 Code-as-Policies,它使用 LLM 生成执行机器人控制的 Python 代码。这两个系统都使用纯文本 LLM 来处理用户输入,视觉组件由独立的机器人模块处理。今年早些时候,InfoQ 报道了谷歌的 PaLM-E,它处理来自机器人传感器的多模态输入数据,并输出一系列高级行动步骤。

 

RT-2 在之前的实现 RT-1 的基础上进行了改进。RT 系列的关键思想是训练一个模型直接输出机器人指令,而不是输出运动的更高级抽象。RT-2 和 RT-1 都接受图像和任务的文本描述作为输入。然而,RT-1 使用了一系列不同的视觉模块来生成输入到 LLM 的视觉令牌,而 RT-2 使用了单一的视觉语言模型,如 PaLM-E。

 

DeepMind 在超过 6,000 个试验中对 RT-2 进行了评估。特别是,研究人员对其新兴能力表现感兴趣:即能够执行机器人专门训练数据中不存在的任务,但这些任务是通过其视觉语言预训练而出现的。团队将 RT-2 在三个任务类别上进行了测试:符号理解、推理和人类识别。与基准模型相比,RT-2 取得了“超过最佳基准模型平均成功率 3 倍以上”的成绩。然而,该模型未获得机器人训练数据中未包含的任何物理技能。

 

Hacker News 上对这件工作的讨论中,一位用户发表了评论:


似乎这项工作(以及许多机器人学习工作)仍然停留在位置/速度控制而不是阻抗控制阶段。这本质上是输出去哪里,可以是通过闭环控制器或开环运动规划器。这似乎极大地降低了数据需求,但感觉对我们可以完成的任务有一种根本性限制。机器人操作之所以困难是因为我们不仅需要考虑世界上正在发生的事情,还需要考虑到我们的互动如何改变它以及我们如何对此作出反应。

 

尽管 RT-2 尚未开源,但 RT-1 的代码数据已经公开。

 

原文链接:

https://www.infoq.com/news/2023/10/deepmind-robot-transformer/

2023-10-24 10:182216

评论

发布
暂无评论
发现更多内容

软件测试/测试开发丨Web端测试-测试用例设计思路 学习笔记

测试人

软件测试

真的好简单,开发搭建了自己的体育赛事直播平台

软件开发-梦幻运营部

SEO长尾效应:掌握这个策略,助力你的独立站SEO长效增长

九凌网络

软件测试/测试开发丨Web端测试—CSS讲解 学习笔记

测试人

软件测试

如何评估 RAG 应用的质量?最典型的方法论和评估工具都在这里了

Zilliz

评估 AIGC LLM rag

测试开发 | 人工智能与大数据的融合:创新、应用与未来趋势

测吧(北京)科技有限公司

测试

测试开发 | 从原理到实战,四天带你轻松进阶Python

测吧(北京)科技有限公司

测试

Allins 官网正式上线,铭文赛道进入 AMM 交易时代

股市老人

MindNode for mac(思维导图软件)v2023.3.1中文激活版

影影绰绰一往直前

Scrum敏捷工具管理大全汇总

顿顿顿

敏捷工具 scrum工具 scrum管理工具 敏捷研发管理工具 scrum工具敏捷

低代码平台在自动驾驶系统开发中的应用

不在线第一只蜗牛

自动驾驶 低代码 交通

测试开发 | 无监督学习与聚类算法:数据中的潜在结构解析

测吧(北京)科技有限公司

测试

探讨数字化转型的必要性与重要性

高端章鱼哥

转型 低代码 数字化

详尽解读:甲骨文云 OCI Cloud 入门与管理全攻略

Geek_2d6073

测试开发 | 数据挖掘在人工智能中的作用:洞察、预测与创新

测吧(北京)科技有限公司

测试

监督学习算法详解:模型训练、分类与预测

测吧(北京)科技有限公司

测试

什么是DePIN,2024年需要了解的DePIN项目

TechubNews

区块链 DePIN

苹果市值一夜蒸发 1071 亿美元;「团结引擎创世版」发布丨 RTE 开发者日报 Vol.118

声网

Illustrator 2023 for mac(ai2023) v27.9永久激活版

mac

windows 11 Illustrator 苹果mac 矢量图形编辑软件

PDF Reader Pro for Mac(好用的pdf编辑阅读器)v3.2.1.0中文激活版

影影绰绰一往直前

Java注解,看完就会用

快乐非自愿限量之名

Java Python 元数据

使用腾讯云大数据Elasticsearch 8.8.1实现:NLP+Vector Search+GAI

腾讯云大数据

ES

2023到2024年:前端发展趋势展望

EquatorCoco

前端 前端开发 低代码 低代码开发

2023 IoTDB Summit:清华大学软件学院长聘副教授龙明盛《IoTDB 新组件:内生机器学习》

Apache IoTDB

测试开发 | Python-列表

测吧(北京)科技有限公司

测试

测试开发 | 神经网络架构与设计:探索人工智能的大脑

测吧(北京)科技有限公司

测试

京东商品详情API:数据分析和挖掘以优化销售策略

技术冰糖葫芦

API

USBclean for Mac(USB专杀工具) v3.8激活版

影影绰绰一往直前

CentOS下nginx的安装

Jackey

nginx

低代码技术:颠覆数据孤岛的技术利器

快乐非自愿限量之名

数据 低代码 数据孤岛

TuGraph Analytics交互式图查询:让图所见即所得

TuGraphAnalytics

图分析 图查询 图可视化

Google DeepMind 宣布基于LLM的机器人控制器 RT-2_生成式 AI_Anthony Alford_InfoQ精选文章