阅读时间大约6分钟(2125字)
作者:沙克 出品:人形机器人洞察研究

一年前,Figure AI推出了其人形机器人大脑模型 Helix。如今,随着 Helix 02的问世,我们见证了人形机器人技术前沿的一次关键跨越——从单纯的“移动”(Locomotion)进化为全身协同的“移动操作”(Loco-manipulation)。
在上周发布的演示视频中,机器人不仅流畅地完成了长达数分钟的洗碗机卸载任务,更展示了其背后全新的 S2-S1-S0 分层大脑架构与多模态物理感知能力。这一突破不仅仅是动作的升级,更是物理人工智能(Physical AI)在数据与控制逻辑上的深度进化。
核心要点总结
从移动到移动操作的突破Figure AI 发布的 Helix 02 模型标志着人形机器人从单纯的“移动”(如行走)进化到了“移动操作”(Loco-manipulation)阶段,能够协调全身控制来完成复杂的任务,例如长达数分钟的洗碗机卸载。
创新的 S2-S1-S0 分层架构Helix 02 采用了一种新颖的三层架构:S2 负责宏观任务规划,S1 负责基于推理的姿态规划,S0 负责高频(1kHz)的执行器控制与平衡。这三层系统以不同的时间尺度运行,并使用不同的数据进行训练。物理AI依赖多模态物理数据该模型引入了掌心摄像头(手内视觉反馈)和触觉传感器等新感知模态,强调“物理人工智能需要物理数据”。这使得机器人能够处理细小、不规则物体(如药丸),释放五指手的全部灵巧潜力。
区别于 LLM 的 VLA 模型定义与大语言模型(LLM)不同,机器人 VLA(视觉-语言-动作)模型将“动作”作为关键拼图。这种架构并行于工业机器人的控制范式,但旨在让机器人理解和规划更复杂的任务,能够以较低的精度和速度要求执行更多自由度的动作。泛化能力与自主性的待解问题尽管演示显示了端到端的自主性,但文章提出了关于“泛化能力”的关键问题:机器人能否适应未见过的厨房环境或物体?此外,对于视频中类似人类的“踢门”动作是机器人自主生成的策略还是单纯模仿训练视频,仍值得探讨。
一年前,Figure AI 推出了 Helix,这是一个人形机器人的大脑模型。我们很高兴看到它具备上身控制能力,并能抓取和放置通用物体(见图表 1)。上周,Helix 02 展示了长达数分钟的洗碗机卸载操作。我们认为,这一发布标志着人形机器人技术前沿取得了真正的进步,即:全身移动操作(loco-manipulation)、全新的大脑模型架构以及物理人工智能(Physical AI)扩展的数据模态。

从移动到移动操作。 直到大约一年前,几乎所有的人形机器人演示都局限于移动(locomotion),即走、跑、跳和跳舞。当机器人偶尔使用手臂做一些工作时,往往很简单,且与下半身的运动是“解耦”的。例如,机器人会走到一个位置,站定,然后才伸出双臂搬运箱子。然而,最近几个月,集成了移动和操作(因此称为“移动操作/loco-manipulation”)的任务开始出现。
图表2和图表3就是这样的两个例子,我们在最近的研究之旅中现场看到了第一个例子。这些例子需要协调的全身控制,机器人“大脑”必须“考虑”其身体的所有部分来为任务想出解决方案。


在我们看来,Figure 的洗碗机卸载演示是迄今为止对这一新能力的最佳展示。这项任务在时长(四分钟)和复杂性(多个装载/卸载步骤,各种物体的抓取和放置)以及所需的自主性和灵巧性方面都非常引人注目。
一个具备任务规划、姿态规划和行动能力的机器人大脑。 与大语言模型(LLM)不同,机器人 VLA(视觉-语言-动作)模型的定义尚不明确。“动作”是拼图中新的一块,就像所有拼图一样,多出的一块会改变整个游戏。关于如何最好地实现 VLA,目前共识很少。

Helix 02采用了一种新颖的S2-S1-S0架构。这三个模型层分别对应任务规划(S2:理解任务和环境,分解并排序子任务)、姿态规划(S1:基于 S2 的推理生成身体所有关节的目标位置)和执行器控制(S0:生成执行器指令,跟踪 S1 输出的关节目标位置,保持平衡和稳定性)。这三个系统在各自自然的频率下运行,从几赫兹(S2),到200 赫兹(S1)和 1000 赫兹(S0),并使用不同的数据和技术进行训练。例如,S0是一个微小的“1000 万参数神经网络”,“完全在仿真环境中训练”,使用了“超过1000小时的关节级人类运动数据” 。这种新的 VLA 对于Figure机器人优雅地完成长序列移动操作任务至关重要。
我们注意到,这种架构与工业机器人的“任务规划-路径规划-运动控制”范式是并行的,我们在最近关于物理人工智能的长篇观点中讨论过这一点。与单臂六轴工业机器人相比,人形机器人最终将需要理解和规划更复杂的任务,规划和执行具有更多自由度的更复杂的动作,但移动速度可以更慢,精度要求也可以低得多。

物理人工智能需要物理数据。 Helix 02的另一个重要突破是使用了新的传感模态,包括掌心摄像头(手内视觉反馈)和触觉传感器 。除了卸载洗碗机,Helix 02还能执行灵巧的任务,如取出单粒药丸、分配精确剂量的注射器以及在自遮挡的情况下挑出细小的不规则物体 。Figure对此解释得很好:“这些传感模态使 Helix 能够释放五指手的全部灵巧潜力,处理需要多指抓握精细运动控制的复杂操作任务。”
此前,我们也强调过非视觉数据和触觉感知对人形机器人应用开发至关重要(见此处;图表 4)。物理人工智能需要物理数据,而且是大量的数据。中国初创公司帕西尼(PaXini)在开发低成本高性能触觉传感器和为人形机器人生成触觉数据方面处于领先地位(图表 5)。


接下来是什么? Figure声称,演示的数分钟任务中的机器人是“端到端自主的,没有重置,也没有人工干预” 。我们相信他们的话。我们的问题是:在视频显示的特定设置中进行了多少训练?机器人能用与训练时不同的盘子和杯子执行此任务吗?如果整个厨房都不一样,且Helix是第一次看到它,情况会怎样?这个接受过卸载洗碗机训练的机器人,能装载和卸载洗衣机吗?
这些问题触及了机器人自主性和任务泛化的进阶水平。即使所有答案都是“否”,Helix 02在人形机器人大脑开发方面仍然取得了令人印象深刻的进步,我们为此鼓掌,但这也成为了我们要看下一次Figure机器人登台时的期望。

所有这些都可以等待。我们要问的一个真正紧迫的问题是——在视频的3分20 秒处,机器人踢起了洗碗机门,以便在身体弯曲最小的情况下将其关闭(图表 6)。这是一个完美的人类动作。是机器人自己想出来的,还是通过模仿训练视频学到的?
资料来源:Bernstein
