写点什么

Physical Intelligence 推出机器人基础模型 Pi-Zero

  • 2024-12-25
    北京
  • 本文字数:1248 字

    阅读完需:约 4 分钟

大小:599.42K时长:03:24
Physical Intelligence 推出机器人基础模型 Pi-Zero

Physical Intelligence 最近宣布推出 π0(pi-zero),这是一款用于机器人的通用 AI 基础模型。Pi-zero 基于预训练的视觉语言模型(VLM),在五项机器人任务的评估中优于其他基线模型。

 

Pi-zero 基于 PaliGemma VLM,然后使用从执行 68 项任务的 7 个不同机器人收集的自定义数据集以及 Open X-Embodiment 数据集对其进行进一步训练。生成的基础模型可以接受自然语言命令并“以基本熟练程度”执行任务。Physical Intelligence 的研究人员将 pi-zero 的性能与两个基线模型 OpenVLA 和 Octo 做了对比,比较了五项任务,包括折叠衣物和整理桌子;pi-zero 比基线模型取得了“巨大的进步”。根据 Physical Intelligence 的说法:


机器人基础模型研究的前沿包括长远推理和规划、自主自我改进、稳健性和安全性。我们预计明年所有这些方向都会取得重大进展,而目前的初步结果为机器人基础模型的未来描绘了一幅充满希望的图景:高度强大的通用策略,继承了互联网规模预训练的语义理解,整合了来自许多不同任务和机器人平台的数据,并实现了前所未有的灵活性和物理能力。


Pi-zero 的架构灵感来自 Transfusion,后者是 Meta 和 Waymo 创建的模型,可对代表离散和连续数据的 token 进行操作。就 pi-zero 而言,该模型有一个独特的模块来处理机器人特定的操作 I/O,研究人员称之为“动作专家”。该模型的输入是视觉图像、机器人关节角度和语言命令的组合;输出是一系列机器人动作 token。

 

对于一些复杂的任务,人类操作员的语言命令首先被输入到高级 VLM 中,后者将其分解为一系列更简单的任务,就像 SayCan 等模型所做的那样。研究人员发现,这种方案提高了摆桌子等任务的性能。当人类操作员给机器人一系列更简单的命令时,他们也发现了类似的改进。

 

Physical Intelligence 联合创始人 Karol Hausman 在 X 上回答了关于该模型的几个问题。他证实他们的演示视频不是脚本或遥控的。当被问及他的团队为何使用折叠衣物来评估他们的模型时,他说:

有很多原因可以说明为什么折叠衣物是一项好任务:

- 如果这项任务做得好,每个人都能看得出来

- 很容易重置(将衣服扔回篮子里)

- 时间可以任意长(连续多个物品)

- 很容易生成多样化的数据(许多衣物)


Andrew Ng 的 The Batch 新闻通讯讨论了 pi-zero,他说:

其中一名团队成员将 π0 视为机器人技术领域的 GPT-1——这是一个时代的开始。尽管文本数据(大量可用)和机器人数据(难以获得且每个机器人都不同)之间存在显著差异,但看起来大型机器人基础模型的新时代即将到来。

 

其他几家大型企业一直在开发用于机器人技术的多模态基础模型。今年早些时候,InfoQ 报道了 NVIDIA 的 GR00T 模型,该模型经过视频、文本和真实机器人演示等数据进行训练。去年,InfoQ 报道了谷歌的 PaLM-E,这是他们的 PaLM 和 Vision Transformer(ViT)模型的组合,用于控制机器人;以及谷歌 DeepMind 的 Robotics Transformer 2(RT-2),这是一个用于控制机器人的视觉-语言-动作(VLA)AI 模型。

 

原文链接:

Physical Intelligence Unveils Robotics Foundation Model Pi-Zero

2024-12-25 08:009467

评论

发布
暂无评论

「用户故事」 从 Thanos 到 GreptimeDB,我们实现了 Prometheus 高效长期存储

Greptime 格睿科技

数据库 云原生 数据迁移

从云原生到 AI 原生,网关的发展趋势和最佳实践

阿里巴巴云原生

阿里云 云原生 网关

选择堡垒机供应商需要考虑因素简单分析-行云管家

行云管家

堡垒机 网龄安全

SQL-DSL框架之结果集处理

邱学喆

JDBC 类型处理器 配置类

重构商业生态:DApp创新玩法与盈利模式的深度剖析

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

如何妥善处理 TCP 代理中连接的关闭

不在线第一只蜗牛

网络协议 网络

【DevOps系列】需求的层次结构:业务驱动的协作与产品导向的交付

嘉为蓝鲸

DevOps 需求分析

【核电科技企业】构建一体化服务器智能运维平台,助力降本增效

嘉为蓝鲸

AIOPS 运维‘ 一体化运维

枫清科技高雪峰:大模型要成为生产力才有生命力

Fabarta

#人工智能

鸿蒙NEXT应用上架与分发步骤详解

威哥爱编程

华为 HarmonyOS Open Harmony HarmonyOS框架 HarmonyOS NEXT

如何炼就 AI 原住民的“自我修养”丨通义灵码走进北京大学创新课堂

阿里云云效

阿里云 云原生 通义灵码

居家观影T0级装备 非激光电视莫属

Geek_2d6073

Apache Seata(incubating) 首个版本重磅发布!

阿里巴巴云原生

Apache 阿里云 云原生

财务规划的成功战略之一:建立数据驱动型决策

智达方通

数据分析 企业管理 财务分析 财务管理 财务规划

Footprint Analytics 现已支持 TRON 链上数据分析

Footprint Analytics

TRONex波场智能合约

【DevOps系列】DevOps工具链选型指南

嘉为蓝鲸

DevOps 工具链

快速过等保2.0的小秘诀!

行云管家

等保 堡垒机 等保测评

80%腾讯程序员都在用,腾讯云AI代码助手让编码提效42%

科技热闻

喜报!博睿数据再获“信创工委会技术活动单位”称号

博睿数据

Next Stack技术联盟成立:打造新一代基础软件技术栈

观测云

next stack

对象存储防勒索升级:XEOS 国内首家通过 NBU 对象锁认证

XSKY星辰天合

软件测试学习笔记丨Selenium弹窗操作

测试人

软件测试

如何炼就 AI 原住民的“自我修养”丨通义灵码走进北京大学创新课堂

阿里巴巴云原生

阿里云 云原生 通义灵码

IoTDB 探索季活动|大疆无人机等你来拿

Apache IoTDB

【DevOps系列】CICD流程建设之持续集成实践指南

嘉为蓝鲸

DevOps 持续集成 CI/CD

Why AR9342, AR9344, IPQ4018 and IPQ4028 chip motherboards have faded from the market?

wifi6-yiyi

wifi 11n 11ac 11be

五大场景实践 深度解读指标平台业务价值

Aloudata

软件测试学习笔记丨Selenium多frame切换

测试人

软件测试

Physical Intelligence 推出机器人基础模型 Pi-Zero_机器学习/深度学习_Anthony Alford_InfoQ精选文章