遥操作就够了吗?拆解具身智能训练的四种数据来源
统计 阅读时间大约7分钟(2734字)

2小时前 遥操作就够了吗?拆解具身智能训练的四种数据来源

来源:豆包
出品:机器人技术笔记同一个机器人模型,换一批训练数据,可能会从稳定抓杯子,变成稳定把杯子推翻。这在具身智能里并不奇怪。模型效果当然取决于架构、参数量和训练方法,...

出品:机器人技术笔记

同一个机器人模型,换一批训练数据,可能会从稳定抓杯子,变成稳定把杯子推翻。

这在具身智能里并不奇怪。模型效果当然取决于架构、参数量和训练方法,也取决于数据是不是干净、对齐、覆盖了真实任务。工程里常说 garbage in, garbage out,喂进去的都是错标、漏标、低质量、和目标机器人对不上的数据,输出就很难稳定。

麻烦在于,高质量具身数据很贵。一个机械臂把杯子推到指定位置,视频里只有几秒钟;训练时却要记录相机画面、关节状态、夹爪动作、接触结果,最好还要有失败样本。到了真实接触瞬间,还会遇到打滑、遮挡、标定误差、物体姿态变化这些细节。于是问题变成了:哪些能力可以靠便宜数据预训练,哪些能力必须靠昂贵数据校准。

机器人数据最可靠,也最贵

最可靠的一类数据,是机器人遥操作数据。人通过手柄、示教器、VR 设备或其他接口操纵机器人,系统同步记录相机画面、关节状态、末端位姿、夹爪开合、力觉或触觉信号,以及最终执行的动作。它的价值很直接:每一帧观察后面都有真实机器人能执行的动作,动作发出去以后世界怎么变,也被记录下来。

这对 VLA(Vision-Language-Action,视觉-语言-动作模型)和 WAM(World Action Model,世界动作模型)都很关键。VLA 要学从观察和语言到动作的映射,WAM 还要预测动作之后的未来状态。没有这种严格配对的数据,模型可能知道画面里发生了什么,却不知道机器人该往哪里动。

RT-1、Open X-Embodiment、DROID 都是这条路线上的代表。Open X-Embodiment 把多个机器人平台的数据统一起来,论文中统计为超过 100 万条轨迹、覆盖 22 种机器人;DROID 强调真实家庭和办公场景里的机械臂操作,相关整理中统计为 7.6 万条轨迹、564 个环境。[2][3][4]

代价也很明显:贵、慢、依赖硬件。高质量遥操作要有机器人本体、相机标定、采集软件、安全机制和失败样本管理。换机器人、换夹爪、换场景,数据往往要重新校准。它适合解决动作落地问题,却很难独自撑起开放世界泛化。

便携式人类示教:把数据采集带出实验室

第二类数据,是便携式人类示教,以 UMI(Universal Manipulation Interface,通用操作接口)为代表。[5] 它不要求人一直远程控制机器人,而是让人拿着轻量化手持夹爪,在真实生活环境里演示任务。系统再通过相机、位姿跟踪、夹爪状态记录和后处理,把人的操作轨迹转成机器人可以学习的示教数据。

它解决的是一个现实矛盾:机器人遥操作数据质量高,但场景被机器人和实验室限制;普通人类视频场景丰富,却缺少机器人动作标签。便携式示教站在中间,比遥操作便宜、灵活,也比普通视频多了动作约束和操作意图。比如教机器人开抽屉,遥操作要搬机器人、调相机、标定坐标;便携式示教可以让人拿着采集器在不同房间直接演示。

风险在于,人手不是机器人夹爪。人的手腕柔顺、手指自由度高,机器人夹爪可能只有开合动作。重定向时会遇到可达性、夹爪形状、力控制和碰撞空间差异。所以它适合补真实场景和任务多样性,但仍需要机器人数据做落地校准。

仿真数据:便宜的世界,也有明显的边界

第三类是仿真数据。它的吸引力很直接:便宜、可控、可规模化。真实世界里,杯子推倒了要扶起来;仿真里可以一键重置。真实相机看不到遮挡背面;仿真可以直接给深度、分割、6D 位姿、碰撞边界和多视角状态。对 WAM 来说,这些监督很宝贵,因为它要学的不只是下一帧长什么样,还要学三维世界怎么随动作变化。

MimicGen、ManiSkill2、RoboCasa、RoboTwin 都属于这条路线。MimicGen 利用少量人类示教程序化扩增任务轨迹;ManiSkill2 提供可泛化操作技能 benchmark,并包含深度、点云、本体状态等多模态信息。[6][7]

仿真尤其适合训练空间理解和接触前的运动关系。机械臂伸过去之前,模型需要知道物体在哪、桌面在哪、从哪个方向接近更合理。真实数据里,这些信息常被遮挡和噪声折叠在一起;仿真可以把答案完整暴露出来。

边界也清楚:sim-to-real gap。画面不像只是表层,更难的是接触。软物体变形、线缆拖拽、液体晃动、透明物体反光,都很难完全还原。仿真适合做规模化预训练和空间监督,不适合单独作为真实部署的保证。

人类和第一视角视频:规模最大,动作最难对齐

第四类,是互联网视频、人类活动视频和第一视角视频。它的优势是规模。Ego4D 包含数千小时日常活动视频;HowTo100M、Kinetics 等网络视频数据集覆盖了大量动作和语义场景。[1][8] 对 WAM 来说,这些视频提供的是世界常识。

杯子被推到桌边会掉下去,抽屉拉开后内部空间会出现,手靠近物体通常会发生接触。这些常识不一定需要机器人动作标签。模型可以从海量视频中学习物体连续性、材料变化、遮挡恢复和事件顺序。

这也是 WAM 比传统 VLA 更有想象空间的地方。传统 VLA 通常依赖观察和动作配对数据;WAM 要建模未来状态,可以吸收一部分没有机器人动作标签的视频,用它们学习视觉物理,再和机器人动作数据混合训练。

但这类数据离机器人控制也最远。视频里有人的手,却没有电机命令;画面里有接触,却常常没有接触力、夹爪状态和关节位置。所以它更适合提供世界先验,距离直接提供可执行策略还隔着一层动作接口。

d4798406fd6399ce64b581e60b14db14.png

具身智能训练数据的四类来源:机器人遥操作数据质量最高但采集复杂;便携式人类示教在真实场景和动作约束之间折中;仿真数据容易规模化但存在现实差距;人类和第一视角视频规模最大,但迁移到机器人控制最难。改绘自 Wang et al., 2026, Fig. 7。[1]

这张图的价值,是把数据放在两个坐标里看:规模化难度和迁移难度。机器人遥操作靠近高质量、低迁移难度的一端,但采集复杂;人类和第一视角视频靠近低成本、大规模的一端,但距离机器人动作空间远;仿真容易扩规模,可现实差距要额外处理;便携式人类示教站在中间。看懂这张图,基本就能看懂具身智能数据的核心取舍。

预训练管见识,后训练管上手

预训练更像给模型补世界经验。它需要规模大、覆盖广,可以吃机器人轨迹、仿真视频、人类第一视角视频、网络视频和多模态数据。这个阶段不一定每条数据都有精确机器人动作标签,重点是让模型学会物体会怎么运动、接触后会发生什么、哪些变化合理。它回答的是世界大概怎么变。

后训练更像把这种世界经验接到一台具体机器人上。它需要更干净、更对齐、更接近部署条件的数据,比如目标机器人上的遥操作轨迹、失败样本、纠正数据、任务偏好、真实控制频率下的观察-动作-结果三元组。这个阶段数据规模可以更小,但质量要求更高,因为它直接决定机器人会不会把预测能力变成稳定动作。

工程上可以把它理解成两本账。预训练这本账追求覆盖率,宁愿让模型多见一些物体、场景、视角和事件;后训练这本账追求可执行性,宁愿少一点,也要保证动作标签、时间同步、传感器状态和目标机器人一致。前者解决见识问题,后者解决上手问题。具身智能里的 garbage in, garbage out,在后训练阶段尤其明显。

未来的数据配方,大概率是混合的

如果只看模型发布,具身智能很容易显得像一个大模型问题。但从训练数据看,它更像一个系统工程问题。一个能落地的配方,通常不会只押一种数据:机器人遥操作负责告诉模型什么动作真的能执行;便携式人类示教带来真实任务多样性;仿真提供廉价、可控、带空间真值的训练场;人类和第一视角视频补开放世界常识。

关键不只是混在一起,而是怎么混。如果机器人数据比例太低,模型可能会预测视频,却不知道动作怎么落到控制接口上;如果只用机器人数据,模型可能在实验室任务上很稳,但缺少长尾场景经验;如果仿真权重过高,又可能在真实接触时暴露摩擦、柔顺性和传感器噪声问题。

VLA、WAM 这类路线的意义,是把这些数据装进同一个训练框架里。它既可以利用带动作的三元组,也就是当前观察、动作、下一状态,学习可控的物理变化;也可以利用没有动作标签的视频,学习更宽泛的视觉物理。它的路径不是让视频直接变成机器人控制,而是先让模型拥有世界预测能力,再用真实动作数据把能力接到执行上。

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×