写点什么

Physical Intelligence 推出机器人基础模型 Pi-Zero

  • 2024-12-25
    北京
  • 本文字数:1248 字

    阅读完需:约 4 分钟

大小:599.42K时长:03:24
Physical Intelligence 推出机器人基础模型 Pi-Zero

Physical Intelligence 最近宣布推出 π0(pi-zero),这是一款用于机器人的通用 AI 基础模型。Pi-zero 基于预训练的视觉语言模型(VLM),在五项机器人任务的评估中优于其他基线模型。

 

Pi-zero 基于 PaliGemma VLM,然后使用从执行 68 项任务的 7 个不同机器人收集的自定义数据集以及 Open X-Embodiment 数据集对其进行进一步训练。生成的基础模型可以接受自然语言命令并“以基本熟练程度”执行任务。Physical Intelligence 的研究人员将 pi-zero 的性能与两个基线模型 OpenVLA 和 Octo 做了对比,比较了五项任务,包括折叠衣物和整理桌子;pi-zero 比基线模型取得了“巨大的进步”。根据 Physical Intelligence 的说法:


机器人基础模型研究的前沿包括长远推理和规划、自主自我改进、稳健性和安全性。我们预计明年所有这些方向都会取得重大进展,而目前的初步结果为机器人基础模型的未来描绘了一幅充满希望的图景:高度强大的通用策略,继承了互联网规模预训练的语义理解,整合了来自许多不同任务和机器人平台的数据,并实现了前所未有的灵活性和物理能力。


Pi-zero 的架构灵感来自 Transfusion,后者是 Meta 和 Waymo 创建的模型,可对代表离散和连续数据的 token 进行操作。就 pi-zero 而言,该模型有一个独特的模块来处理机器人特定的操作 I/O,研究人员称之为“动作专家”。该模型的输入是视觉图像、机器人关节角度和语言命令的组合;输出是一系列机器人动作 token。

 

对于一些复杂的任务,人类操作员的语言命令首先被输入到高级 VLM 中,后者将其分解为一系列更简单的任务,就像 SayCan 等模型所做的那样。研究人员发现,这种方案提高了摆桌子等任务的性能。当人类操作员给机器人一系列更简单的命令时,他们也发现了类似的改进。

 

Physical Intelligence 联合创始人 Karol Hausman 在 X 上回答了关于该模型的几个问题。他证实他们的演示视频不是脚本或遥控的。当被问及他的团队为何使用折叠衣物来评估他们的模型时,他说:

有很多原因可以说明为什么折叠衣物是一项好任务:

- 如果这项任务做得好,每个人都能看得出来

- 很容易重置(将衣服扔回篮子里)

- 时间可以任意长(连续多个物品)

- 很容易生成多样化的数据(许多衣物)


Andrew Ng 的 The Batch 新闻通讯讨论了 pi-zero,他说:

其中一名团队成员将 π0 视为机器人技术领域的 GPT-1——这是一个时代的开始。尽管文本数据(大量可用)和机器人数据(难以获得且每个机器人都不同)之间存在显著差异,但看起来大型机器人基础模型的新时代即将到来。

 

其他几家大型企业一直在开发用于机器人技术的多模态基础模型。今年早些时候,InfoQ 报道了 NVIDIA 的 GR00T 模型,该模型经过视频、文本和真实机器人演示等数据进行训练。去年,InfoQ 报道了谷歌的 PaLM-E,这是他们的 PaLM 和 Vision Transformer(ViT)模型的组合,用于控制机器人;以及谷歌 DeepMind 的 Robotics Transformer 2(RT-2),这是一个用于控制机器人的视觉-语言-动作(VLA)AI 模型。

 

原文链接:

Physical Intelligence Unveils Robotics Foundation Model Pi-Zero

2024-12-25 08:009315

评论

发布
暂无评论

Zookeeper简述

数新网络官方账号

zookeeper 后端 ZooKeeper原理

如何让 Llama2、通义千问开源大语言模型快速跑在函数计算上?

Serverless Devs

Serverless 模型 AIGC

数据库设计:防止MySQL字段名与关键字相撞,保护数据完整性!

互联网工科生

MySQL 数据库

ARTS打卡:团队管理中的目标设定与管理

三毛

ARTS 打卡计划

Go 循环

小万哥

Go 程序员 后端 开发 Google

国际顶会SC23收录唯一区块链论文,微众银行技术实力受学术界认可

新消费日报

Masks Person面具人MAR现在值得参与吗

币离海

“银河护卫队总部”放大招!Milvus 核心组件再升级,主打就是一个低延迟、高准确度

Zilliz

非结构化数据 Milvus Zilliz 向量数据库

华为主题十周年共创海报还能这么玩?

最新动态

LRTimelapse 6 for Mac(延迟摄影编辑渲染软件)v6.5.2中文激活版

mac

苹果mac Windows软件 LRTimelapse 6 时间轴制作软件

九章云极DataCanvas公司参与大模型重点项目合作签约,建设产业集聚区

九章云极DataCanvas

亚信科技AntDB数据库携“U8C+AntDB联合产品”亮相“2023全球商业创新大会”,开启生态合作新篇章

亚信AntDB数据库

数据库 AntDB AntDB数据库

数据库顶会 VLDB 2023 论文解读:字节跳动如何解决超大规模流式任务运维难题

字节跳动云原生计算

flink 流式计算 VLDB

跨平台.NET IDE集成开发 Rider 激活码破解版

mac大玩家j

开发环境 Mac软件

文心一言 VS 讯飞星火 VS chatgpt (87)-- 算法导论8.2 4题

福大大架构师每日一题

福大大架构师每日一题

解锁项目管理神器——低代码开发平台

力软低代码开发平台

2023年中国信通院铸基计划“文本图像篡改检测系统技术规范”研讨会成功召开

合合技术团队

中国信通院 文本 合合信息 研讨会 图像篡改

低代码实现软件的快速交付与部署

互联网工科生

软件开发 低代码 企业级低代码平台

ARTS打卡第二周:如何激励员工

三毛

ARTS 打卡计划

堆叠大陆 Stacklands for Mac(卡牌游戏)v1.3.4中文原生版

mac

堆叠大陆 苹果mac 村庄建设游戏 Stacklands 卡牌游戏

Solr数据迁移ES

腾讯云大数据

ES

迈向数字化的FP&A团队合作计划

智达方通

数据可视化 全面预算管理 预测分析

数字化转型与架构-架构设计篇|建模之“聚类”

数字随行

数字化转型

DingoDB多模向量数据库,大模型时代的数据觉醒

九章云极DataCanvas

点云标注在自动驾驶中的优化策略与实践

来自四九城儿

zone.js由入门到放弃之三——zone.js 源码分析【setTimeout篇】

OpenTiny社区

JavaScript 前端开发

前人栽树,后人才能乘凉!聊聊低代码对开发者的意义

树上有只程序猿

软件开发 低代码 数字化 企业级低代码平台 JNPF

基于点云标注的自动驾驶技术:现状与未来

来自四九城儿

重磅! AIFS+MLOps两大AI基核技术前沿洞察报告出炉!

九章云极DataCanvas

刷新大模型世界观

九章云极DataCanvas

Physical Intelligence 推出机器人基础模型 Pi-Zero_机器学习/深度学习_Anthony Alford_InfoQ精选文章