Figure 发布 Helix-02 卧室整理：两台人形机器人共用同一神经网络，两分钟铺好一张床

阅读时间大约6分钟（2347字）

2026-05-09 Figure 发布 Helix-02 卧室整理：两台人形机器人共用同一神经网络，两分钟铺好一张床

来源：具身纪元

我们希望未来变得普遍的图景：智能人形机器人之间彼此协调，在人类的环境里完成共同的目标。

出品：具身纪元

Figure 公布最新研究进展 Helix-02 Bedroom Tidy：两台搭载同一套 Helix-02 VLA 模型的人形机器人在不到两分钟内完成卧室复位——开门、挂衣服、收纳头戴耳机、合书、扔垃圾、把椅子推回桌下，并配合铺好一张床。Figure 称这是"据其所知首次"由单一神经网络直接从像素端到端控制多台人形机器人完成协作式 locomanipulation。

这次演示的关键不在"扫房间"本身，而在于两个机器人之间没有共享规划器、没有消息总线、没有中央调度：每台机器人只通过自己的摄像头看场景，从对方的动作中实时推断意图，就像两个人合作叠床单时仅凭动作互相理解。可形变的被子、动态的单腿平衡、以及连续 2 分钟数千个串行决策共同抬高了任务上限。

本文要点：

两台人形共享同一个 VLA、不靠中央调度也能协作：

两台机器人各自跑同一份 Helix-02 策略，只看自己摄像头里的画面，从对方动作中推断意图，没有共享规划器、消息传递或中央协调器，靠"运动即沟通"完成协同。

可形变被子是这次最难的核心物体：

被子没有固定姿态、没有刚体几何、没有标准抓点，也没有"你那半我这半"的天然分界，每个机器人都必须在每秒数十次的更新中同时锁定接触点并预测对方下一步。

把全屋 locomanipulation 压进两分钟：

整段流程包含步行换位、单腿动态平衡、刚体/形变/铰接/协作四类操作来回切换，不存在脚本化的子任务交接，相当于在数千个连续决策中对一个含第二台机器人的快变场景持续保持正确。

不靠任务专属控制器，全靠加数据扩能：

Figure 强调 Helix-02 没有为开门、推椅、铺床等单独写控制器，原算法保持不变，仅依赖新数据扩展同一套底座，已覆盖物流、叠衣、厨房清洁、客厅整理。

Figure 把这次定位为"多人形协作家务"的起点：

Figure 把这一演示视为未来"多台智能人形在人类环境中协同完成共同目标"的首次范本，并随文表示正在招聘扩张团队。

图注：Helix-02 双人形协作铺床的官方主视觉，两台机器人分立床两侧合力铺设条纹被罩。

一、Helix 02 来铺床

现实世界里最有用的工作，大多发生在共享空间：家、仓库、工厂，以及任何人、物、其他机器人都在不停移动的环境。这意味着未来的机器人需要的远不止孤立的技能。它们需要在被其他智能体塑造的场景里行动——观察别人在做什么、实时作出反应，并依赖彼此的动作来共同推进同一个目标。

2025 年 2 月，我们展示了两台 Figure 机器人运行同一套学习得到的视觉-语言-动作（Vision-Language-Action）系统，协调完成收拾杂货的任务。今天，我们要展示沿着这条方向迈出的一大步：两台搭载 Helix-02 的人形机器人在不到两分钟里完成了一次卧室复位——开门、挂衣服、收纳头戴耳机、合上一本书、扔垃圾、把椅子推回桌下，并合作铺好一张床。它们运行的是同一套学习得到的视觉-语言-动作策略。两者之间没有共享规划器，没有消息传递，没有中央协调器：每台机器人都通过自己的摄像头读取这个房间，并像两个人合作折一张床单时那样、仅凭动作来推断对方的意图。

据我们所知，这是首次出现一个单一的学习神经网络直接从像素到动作完成多人形协作式 locomanipulation 的演示。

图注：机器人正在按下门把手并向内拉门，整个过程涉及全身协调，而非仅靠手臂发力。

二、关键结果

在这段视频里，我们看到 Helix 仅凭追加数据就完成了一系列同时考验移动（locomotion）、灵巧操作（dexterity）和感知（sensing）的行为。核心算法没有任何改动，Helix-02 学会了：

2.1 用整身协调打开一扇门

定位一个杠杆式门把手、按下、向内拉门同时保持平衡，并在门扇向内打开的过程中调整身体位置。

2.2 借站位与平衡推动家具

双手抓住一把办公椅，把它推回桌下，通过脚的落点和身体姿态产生受控的推力，而不是只靠手臂的运动。

2.3 把衣物搭到狭窄的支架上

把一件衣服横穿房间送过去，用双手挂到衣帽架上——这件衣物可能折叠在自身之上，遮住接触点。

2.4 在手内重定向并放置物体

拿起一副头戴耳机，在空中改变其朝向，并把头梁套到一个细窄的立式耳机架上。

图注：机器人在桌前完成头戴耳机的拾取、空中重定向、再扣到立式支架上的连续动作。

2.5 用灵巧的双手控制把书合上

捡起一本摊开的书并把封面翻合——这是一个铰接物体，它的书页会弯折、它的质量会随着翻合发生迁移。

2.6 用单腿平衡操作垃圾桶的脚踏

捡起一片垃圾，将体重转移到一只脚上，用另一只脚踩开带踏板的垃圾桶盖、把垃圾投入桶内——这里脚被当作末端执行器使用，同时整体保持动态平衡。

2.7 围绕同一个物体协调两台人形

在一张床的两侧选择互补的站位，针对同一个大型可形变物体进行动作，而互不干扰。

2.8 用双手与全身联动操作床品

抬起、抖开、铺平、折叠、抚平一整条被子，并在每一次拉动后、当布料落定时，对褶皱与拢起的边进行修正。

图注：两台机器人相向站位、各执被罩一角抖开铺平，是被子操作中最具代表性的一帧。

三、为什么这件事很难

有三件事在互相叠加：

3.1 一个房间里的两台人形不是两个单机问题在并行

一台机器人采取的每一个动作都会重新定义另一台机器人正在解决的问题。每台都在仅凭运动实时推断对方的意图，而它自己的动作又同时改变着对方所看到的画面。

3.2 中心物体是可形变的

被子没有固定姿态，没有刚体几何，没有标准抓点。"你那半 / 我这半"之间也没有天然的接缝。每台机器人都必须先承诺一个接触点，并同时预测对方会做什么，然后随着布料折叠、垂落、在共同张力下滑动，每秒数十次地更新这两个预测。

3.3 整段流程在两分钟内跑完

这次卧室复位需要全屋范围的 locomanipulation：机器人要在不同位置之间自然行走、在单腿上做动态平衡，并在刚体、可形变体、铰接物体、以及协作式操作之间切换——而且子任务之间不存在脚本化的交接。在策略运行频率下，这意味着数千个连续正确的决策，每一个都建立在一个快速变化、并且包含另一台在相同约束下行动的人形机器人的场景之上。