阅读时间大约7分钟（2734字）

2小时前遥操作就够了吗？拆解具身智能训练的四种数据来源

来源：豆包

出品：机器人技术笔记同一个机器人模型，换一批训练数据，可能会从稳定抓杯子，变成稳定把杯子推翻。这在具身智能里并不奇怪。模型效果当然取决于架构、参数量和训练方法，...

出品：机器人技术笔记

同一个机器人模型，换一批训练数据，可能会从稳定抓杯子，变成稳定把杯子推翻。

这在具身智能里并不奇怪。模型效果当然取决于架构、参数量和训练方法，也取决于数据是不是干净、对齐、覆盖了真实任务。工程里常说 garbage in, garbage out，喂进去的都是错标、漏标、低质量、和目标机器人对不上的数据，输出就很难稳定。

麻烦在于，高质量具身数据很贵。一个机械臂把杯子推到指定位置，视频里只有几秒钟；训练时却要记录相机画面、关节状态、夹爪动作、接触结果，最好还要有失败样本。到了真实接触瞬间，还会遇到打滑、遮挡、标定误差、物体姿态变化这些细节。于是问题变成了：哪些能力可以靠便宜数据预训练，哪些能力必须靠昂贵数据校准。

机器人数据最可靠，也最贵

最可靠的一类数据，是机器人遥操作数据。人通过手柄、示教器、VR 设备或其他接口操纵机器人，系统同步记录相机画面、关节状态、末端位姿、夹爪开合、力觉或触觉信号，以及最终执行的动作。它的价值很直接：每一帧观察后面都有真实机器人能执行的动作，动作发出去以后世界怎么变，也被记录下来。

这对 VLA（Vision-Language-Action，视觉-语言-动作模型）和 WAM（World Action Model，世界动作模型）都很关键。VLA 要学从观察和语言到动作的映射，WAM 还要预测动作之后的未来状态。没有这种严格配对的数据，模型可能知道画面里发生了什么，却不知道机器人该往哪里动。

RT-1、Open X-Embodiment、DROID 都是这条路线上的代表。Open X-Embodiment 把多个机器人平台的数据统一起来，论文中统计为超过 100 万条轨迹、覆盖 22 种机器人；DROID 强调真实家庭和办公场景里的机械臂操作，相关整理中统计为 7.6 万条轨迹、564 个环境。[2][3][4]

代价也很明显：贵、慢、依赖硬件。高质量遥操作要有机器人本体、相机标定、采集软件、安全机制和失败样本管理。换机器人、换夹爪、换场景，数据往往要重新校准。它适合解决动作落地问题，却很难独自撑起开放世界泛化。

便携式人类示教：把数据采集带出实验室

第二类数据，是便携式人类示教，以 UMI（Universal Manipulation Interface，通用操作接口）为代表。[5] 它不要求人一直远程控制机器人，而是让人拿着轻量化手持夹爪，在真实生活环境里演示任务。系统再通过相机、位姿跟踪、夹爪状态记录和后处理，把人的操作轨迹转成机器人可以学习的示教数据。

它解决的是一个现实矛盾：机器人遥操作数据质量高，但场景被机器人和实验室限制；普通人类视频场景丰富，却缺少机器人动作标签。便携式示教站在中间，比遥操作便宜、灵活，也比普通视频多了动作约束和操作意图。比如教机器人开抽屉，遥操作要搬机器人、调相机、标定坐标；便携式示教可以让人拿着采集器在不同房间直接演示。

风险在于，人手不是机器人夹爪。人的手腕柔顺、手指自由度高，机器人夹爪可能只有开合动作。重定向时会遇到可达性、夹爪形状、力控制和碰撞空间差异。所以它适合补真实场景和任务多样性，但仍需要机器人数据做落地校准。

仿真数据：便宜的世界，也有明显的边界

第三类是仿真数据。它的吸引力很直接：便宜、可控、可规模化。真实世界里，杯子推倒了要扶起来；仿真里可以一键重置。真实相机看不到遮挡背面；仿真可以直接给深度、分割、6D 位姿、碰撞边界和多视角状态。对 WAM 来说，这些监督很宝贵，因为它要学的不只是下一帧长什么样，还要学三维世界怎么随动作变化。

MimicGen、ManiSkill2、RoboCasa、RoboTwin 都属于这条路线。MimicGen 利用少量人类示教程序化扩增任务轨迹；ManiSkill2 提供可泛化操作技能 benchmark，并包含深度、点云、本体状态等多模态信息。[6][7]

仿真尤其适合训练空间理解和接触前的运动关系。机械臂伸过去之前，模型需要知道物体在哪、桌面在哪、从哪个方向接近更合理。真实数据里，这些信息常被遮挡和噪声折叠在一起；仿真可以把答案完整暴露出来。

边界也清楚：sim-to-real gap。画面不像只是表层，更难的是接触。软物体变形、线缆拖拽、液体晃动、透明物体反光，都很难完全还原。仿真适合做规模化预训练和空间监督，不适合单独作为真实部署的保证。

人类和第一视角视频：规模最大，动作最难对齐

第四类，是互联网视频、人类活动视频和第一视角视频。它的优势是规模。Ego4D 包含数千小时日常活动视频；HowTo100M、Kinetics 等网络视频数据集覆盖了大量动作和语义场景。[1][8] 对 WAM 来说，这些视频提供的是世界常识。

杯子被推到桌边会掉下去，抽屉拉开后内部空间会出现，手靠近物体通常会发生接触。这些常识不一定需要机器人动作标签。模型可以从海量视频中学习物体连续性、材料变化、遮挡恢复和事件顺序。

这也是 WAM 比传统 VLA 更有想象空间的地方。传统 VLA 通常依赖观察和动作配对数据；WAM 要建模未来状态，可以吸收一部分没有机器人动作标签的视频，用它们学习视觉物理，再和机器人动作数据混合训练。

但这类数据离机器人控制也最远。视频里有人的手，却没有电机命令；画面里有接触，却常常没有接触力、夹爪状态和关节位置。所以它更适合提供世界先验，距离直接提供可执行策略还隔着一层动作接口。

具身智能训练数据的四类来源：机器人遥操作数据质量最高但采集复杂；便携式人类示教在真实场景和动作约束之间折中；仿真数据容易规模化但存在现实差距；人类和第一视角视频规模最大，但迁移到机器人控制最难。改绘自 Wang et al., 2026, Fig. 7。[1]

这张图的价值，是把数据放在两个坐标里看：规模化难度和迁移难度。机器人遥操作靠近高质量、低迁移难度的一端，但采集复杂；人类和第一视角视频靠近低成本、大规模的一端，但距离机器人动作空间远；仿真容易扩规模，可现实差距要额外处理；便携式人类示教站在中间。看懂这张图，基本就能看懂具身智能数据的核心取舍。

预训练管见识，后训练管上手

预训练更像给模型补世界经验。它需要规模大、覆盖广，可以吃机器人轨迹、仿真视频、人类第一视角视频、网络视频和多模态数据。这个阶段不一定每条数据都有精确机器人动作标签，重点是让模型学会物体会怎么运动、接触后会发生什么、哪些变化合理。它回答的是世界大概怎么变。

后训练更像把这种世界经验接到一台具体机器人上。它需要更干净、更对齐、更接近部署条件的数据，比如目标机器人上的遥操作轨迹、失败样本、纠正数据、任务偏好、真实控制频率下的观察-动作-结果三元组。这个阶段数据规模可以更小，但质量要求更高，因为它直接决定机器人会不会把预测能力变成稳定动作。

工程上可以把它理解成两本账。预训练这本账追求覆盖率，宁愿让模型多见一些物体、场景、视角和事件；后训练这本账追求可执行性，宁愿少一点，也要保证动作标签、时间同步、传感器状态和目标机器人一致。前者解决见识问题，后者解决上手问题。具身智能里的 garbage in, garbage out，在后训练阶段尤其明显。

未来的数据配方，大概率是混合的

如果只看模型发布，具身智能很容易显得像一个大模型问题。但从训练数据看，它更像一个系统工程问题。一个能落地的配方，通常不会只押一种数据：机器人遥操作负责告诉模型什么动作真的能执行；便携式人类示教带来真实任务多样性；仿真提供廉价、可控、带空间真值的训练场；人类和第一视角视频补开放世界常识。

关键不只是混在一起，而是怎么混。如果机器人数据比例太低，模型可能会预测视频，却不知道动作怎么落到控制接口上；如果只用机器人数据，模型可能在实验室任务上很稳，但缺少长尾场景经验；如果仿真权重过高，又可能在真实接触时暴露摩擦、柔顺性和传感器噪声问题。

VLA、WAM 这类路线的意义，是把这些数据装进同一个训练框架里。它既可以利用带动作的三元组，也就是当前观察、动作、下一状态，学习可控的物理变化；也可以利用没有动作标签的视频，学习更宽泛的视觉物理。它的路径不是让视频直接变成机器人控制，而是先让模型拥有世界预测能力，再用真实动作数据把能力接到执行上。