机器人技术永远不会出现“ChatGPT时刻”

今年可能是通用机器人技术有史以来最激动人心的一年。我在年初的一篇文章中，大致预测了该领域的发展，以及我认为成立哪类初创公司会有意义。2024 年有一些令人惊叹的进展，在这个背景下重读那篇文章，感觉非常有趣。在这篇文章中，我想再预测一下明年会发生什么。

硬件趋同

预测：到 2025 年底，人型机器人将实现商用。

我的意思是，大多数人型机器人将由大致相同的组件构成，而且任何组织都可以自由地生产这些组件。规模经济将促使现有的企业放弃自己的专有组件，转而生产商用组件。

以下是原因：

基于 RL 的闭环控制（使用通过仿真训练出的策略）已成为实现实时控制的最佳方法 1。
使用 RL 策略控制机器人，意味着你无需关心执行器的大量特性，而这是机器人公司历来关心或试图使自己与众不同的组件。
一旦弄清了如何利用它，大多数仍在观望的公司也将转向开源的 MIT Cheetah 执行器。
规模经济和制造成本意味着其他执行器设计不再具备竞争力。

说明：

虽然硬件组件将趋于一致，但不同机器人的设计仍会存在一些差异。
在机器人设计决策的合理性方面仍然存在一些未决的问题，比如如何安排臀部的自由度，是否在颈部或躯干中加入自由度，以及使用哪种夹持器。
我认为，根据不同的应用场景，不同的机器人仍有充分的理由做出不同的设计决策。

这会有什么影响？

优秀的通用机器人硬件将成为商品。特斯拉、Figure 或 1X 等现有机器人公司都不会获得任何实质性优势。
到 2025 年底，一个好的全尺寸人型机器人的市场价将低于 8000 美元，一个好的家用机器人的市场价将低于 4000 美元。

不会有 ChatGPT 时刻

预测：机器人技术永远不会出现“ChatGPT 时刻”。

我将此定义为，某家公司在一段时间内一直在单独开发一种模型，然后将其发布到某个商用机器人平台上，非常神奇地，使该机器人能够完成通用任务，而且有很高的可靠性。

以下是原因：

训练一个通用机器人模型所需的各种数据的规模远远超过人们目前的认知。
仅仅让一个非常好的语言模型或多模态模型来控制机器人是不够的。要想实现 “ChatGPT 级别”的通用智能，唯一的办法就是收集大量（数百万小时的数量级）的特定智能体数据。
这就需要反复改进。
试图为一个特定的领域构建一个机器人，然后以这些数据为基础来达成通用性。这个策略也是行不通的，因为：π0 模型证明了我们距离拥有一个优秀的通才智能体 AI 模型还有多远。

说明：

即使没有“ChatGPT 时刻”，2025 年也会出现更好的机器人，而且我们很可能会迈过这样一个门槛，即机器人的成本低于它为大部分人提供的价值，这意味着它们将成为可行的产品。
我们可以迅速接近 ChatGPT 的性能水平，但这会是个渐进的过程，而不是一次性的突破。

这会有什么影响？

一些规模最大、资金最雄厚的企业需要转向，致力于将真正的产品推向市场，或与已经在这样做的企业合作。

消费市场增长

预测：到 2025 年底，美国销售的人型机器人中将有一半以上是面向消费者的。

我所说的“消费者 ”是指购买机器人主要用于个人用途的人，人们会自己尝试使用机器人，但也会有很多与商业用途重叠的情况。

以下是原因：

与前几代机器人相比，通用机器人的效用将截然不同。
起初，通用机器人的“杀手级应用”将是语音和视觉。
早期用户将更关注“仿人”方面，而不是“机器人”方面。
任何固守传统机器人企业客户 SLA（服务水平协议）的组织，最终都会落入过去曾让许多机器人公司深陷其中的陷阱。他们将被迫放弃构建良好的通用模型，转而在自由度超高的平台上重新实现经典控制。

说明：

我认为，除了消费者会采用外，企业也会采用，但大多数真正的企业采用看起来更像是专业消费者，而不是企业，这与传统的机器人采用方式存在明显的不同。
将一类新的消费电子产品推向市场很难。很多人都会为了找到一种办法而浪费大量的资金。

这会有什么影响？

机器人公司需要开始关注品牌、对消费者的广泛吸引力、消费者市场细分以及其他传统上不需要关注的问题。
服务水平协议（SLA）将变得不再重要。机器人公司将开始变得更像硅谷的科技公司，转而关心用户参与度和留存率等问题。

作者简介：

Ben 是 K-Scale Labs 这家公司的创始人兼首席执行官。该公司正在致力于开发通用机器人（GPR），旨在将具身智能引入现实世界。公司将这项技术开源，免费供任何人审核、构建和优化，以适应他们各自的用例。

Ben 曾在特斯拉、Meta、谷歌和亚马逊担任 AI 研究员和工程师。在特斯拉，Ben 负责训练并部署了首个用于输出汽车航点的自回归变压器，这一过程中还涉及重写特斯拉 HW3 ASIC 的神经网络编译器。此外，Ben 还编写了 CUDA 内核，用于生成训练体素占用网络所需的真实数据，该网络后来被改编并应用于 Optimus 机器人。在 Meta，Ben 训练并部署了首个用于内容审核的变压器模型，随后转向了 AI 研究领域。Ben 还共同开发了首批大规模语音基础模型之一（按照 2021 年的标准，拥有十亿个参数已算是相当大的规模），该模型后来被开源社区广泛应用于离线语音克隆和语音生成等众多场景。Ben 也曾短暂涉足机器人语义映射的研究工作。

Ben 在埃默里大学取得了数学和计算机科学的学位，在校期间还在 NIH 资助的培训补助金支持下，深入研究了计算神经科学。该补助金的大部分资金用于在佐治亚理工学院的 Hasler 实验室开展研究，主要探索利用模拟电路进行神经形态计算，也正是在那里，Ben 首次对深度学习产生了浓厚的兴趣。毕业后，Ben 在中国居住了三个月，期间努力练习语言技能，之后便开始了我的职业生涯。

原文链接：

https://ben.bolte.cc/posts/2024-12-23-predictions

声明：本文为 InfoQ 翻译，未经许可禁止转载。

创作场景

机器人技术永远不会出现“ChatGPT 时刻”

硬件趋同

不会有 ChatGPT 时刻

消费市场增长