京东开源 1680 小时第一视角人类操作数据,具身智能终于开始认真“看人怎么做事”
统计 阅读时间大约10分钟以上(4733字)

3小时前 京东开源 1680 小时第一视角人类操作数据,具身智能终于开始认真“看人怎么做事”

来源:豆包
EgoLive 是具身智能数据路线的一次重要推进

出品:具身视界

在大模型领域,一个几乎已经被反复验证的规律是:模型能力的提升,很大程度上来自大规模、高质量、多样化的数据

语言模型之所以能快速发展,是因为互联网上存在海量文本;视觉语言模型之所以能理解图文,也是因为有大量图像-文本数据可供训练。

但到了具身智能和机器人领域,问题就变得困难了很多。

机器人不是只需要“看懂图片”或“理解语言”,它还需要知道:

人类是怎么拿起一个杯子的?

怎么擦一扇玻璃门?

怎么整理衣服、清洁冰箱、摆放货架?

更进一步,它还要理解一个长任务是如何一步步完成的。

这些知识并不容易从普通图文数据中学到。机器人需要的是大量真实世界中的操作经验。

这正是 EgoLive: A Large-Scale Egocentric Dataset from Real-World Human Tasks 这篇论文想解决的问题。论文提出了一个由京东 Joy Future Academy 构建的大规模第一视角人类操作数据集 EgoLive。它包含 1680 小时视频、65,866 个 episode、346 类真实任务,并提供手部轨迹、深度图、相机位姿、手和交互物体 mask、子任务分割以及语言描述等多模态标注。

简单来说,EgoLive 想做的是: 让机器人先从大量真实人类第一视角操作数据中,学习人类是如何在真实世界里完成任务的

为什么机器人需要第一视角人类数据?

过去,机器人学习数据主要有几种来源。

第一种是真机遥操作。比如研究人员用遥操作设备控制机械臂,让机器人真实执行任务。这类数据的好处是动作可以直接用于机器人训练,但缺点也很明显:设备复杂、成本高、采集慢,很难扩展到互联网级别的数据规模。

第二种是 UMI,也就是 Universal Manipulation Interface。它通常让人拿着带相机的夹爪去完成任务,从而采集接近机器人视角的数据。这种方式比真机遥操作更灵活,但它依然和某种具体工具或夹爪形态绑定,不太适合直接覆盖灵巧手、双手操作或更复杂的人类自然动作。

第三种就是近年来越来越受关注的方向:人类第一视角视频数据。也就是让人戴上头戴式相机,在真实环境中自然完成各种任务。

这种方式有几个明显优势。

首先,它更容易规模化。相比采集机器人数据,采集人类第一视角视频的成本低得多。

其次,它更自然。人类不需要拿着特殊夹爪,也不需要站在固定实验环境里,可以在真实家庭、商店、药房、仓库等环境中完成任务。

最后,它保留了人类手部操作的丰富细节。尤其对于灵巧操作、双手协作、长流程任务来说,人类第一视角数据能够提供非常有价值的操作先验。

EgoLive 就是沿着这条路线构建的。

EgoLive 到底有多大?

986231bb538f3bc67bc0776c062cc565.png

论文开头的 Figure 1 给出了 EgoLive 的基本规模。这个数据集包含:

09229e18244271f07a03e82e364da625.png  

这个规模在当前面向机器人学习的第一视角数据集中已经非常大。更重要的是,EgoLive 不只是普通生活视频,而是围绕真实任务和真实工作流程采集的。

它覆盖的场景包括家政服务、物品整理、清洁、零售、药房、物流、仓储等。也就是说,它关注的不只是“人在厨房里做饭”这种常见场景,而是更接近未来服务机器人、人形机器人可能真正面对的工作环境。

这也是 EgoLive 和很多已有 egocentric dataset 的一个重要区别:它不是只追求视频时长,而是希望构建一个更适合机器人学习的真实任务经验库。

EgoLive 和已有数据集有什么不同?

论文中把已有第一视角数据集大致分成三类。

第一类是通用型 egocentric dataset,比如 EPIC-KITCHENS-100 和 Ego4D。它们非常适合动作识别、视频理解和第一视角表示学习,但对于机器人操作来说还不够。因为它们通常缺少机器人学习需要的几何和运动信号,比如手部 3D keypoints、相机轨迹、深度图、手和物体的 mask、子任务边界等。

第二类是 manipulation-centric dataset,比如 HOI4D、HOT3D、EgoMimic、EgoDex。这些数据更关注手-物交互,离机器人操作更近。但很多数据仍然集中在实验室、桌面或家庭环境中,对真实服务场景和长流程工作任务的覆盖有限。

第三类是 deployment-scale dataset,比如 Egocentric-10K 和 Xperience-10M。这些数据更接近真实部署场景,但有些数据的标注较稀疏,或者视频质量、分辨率、帧率、几何标注完整性不如 EgoLive。

81545ba49d90b87905a87d77ac1470de.png

从论文 Table 1 可以看到,EgoLive 的特点是比较均衡:

它有真实世界场景,有较大规模,有高分辨率和高帧率,也有 motion tracking、language annotation 和 depth annotation。

这使它不只是一个“视频数据集”,而更像是一个为机器人学习准备的多模态人类操作数据集。

EgoLive 是怎么采集的?

EgoLive 使用了自研头戴式设备 JoyEgoCam。这个设备配备双目 RGB 相机,视场角为 130° × 130°,视频分辨率为 2160 × 2160,帧率为 60 FPS,同时还集成了 200Hz IMU。

这个硬件设计的关键点是:尽量不打扰人的自然操作

如果使用 VR 头显,设备会遮挡人的脸,也可能影响自然行为;如果使用 UMI 夹爪,人类的手部形态和真实操作方式会被改变。而 JoyEgoCam 是头戴式的,人仍然可以用自己的双手自然操作物体。

这对机器人学习很重要。因为我们真正想学习的,不只是“任务完成了什么结果”,而是人类在真实世界中如何观察、如何伸手、如何抓取、如何调整、如何完成连续操作。

尤其对于长任务和灵巧操作来说,这种自然人类数据会比人为设计的实验室数据更接近真实应用场景。

EgoLive 不只是视频,它还提供了丰富标注

0b3df763f4aa7bbe2aca8a00360559de.png

EgoLive 的另一个重点是它的自动标注 pipeline。论文 Figure 3 展示了从原始双目视频到多模态标注的完整流程。

整个 pipeline 可以分成三个部分。

第一,Motion Tracking

系统会估计手腕和手部关节的 6D 轨迹,同时结合相机自身运动,建立动作参考坐标系。

具体来说,论文使用 HaMeR 和 MANO 进行手部重建。流程大致是:先从单目视频中估计 MANO 手模型参数,再利用双目 stereo 信息进一步优化 3D 手部关键点。

这一步的意义在于,模型不只是知道“图像里有一只手”,还可以获得更结构化的手部运动信息。

第二,Semantic Understanding

EgoLive 会识别手、交互物体、动作状态,并生成语言描述。

它的流程包括:

先检测人手和交互物体,然后用 BoT-SORT 进行跟踪,用 SAM2 生成手和物体的 segmentation mask,再把每个 episode 划分成多个子任务片段,最后用 fine-tuned Qwen3-VL-32B 生成细粒度 instruction caption。

这使得 EgoLive 不仅有视觉数据,也有语言层面的任务描述。

比如一个任务不是简单标注成“cleaning”,而是可以细化到:

“右手拿着白色刮水器,从上到下擦玻璃。”

这种描述对 VLA 模型非常有价值,因为它把手、物体、动作和任务意图连接起来了。

第三,3D Reconstruction

因为 JoyEgoCam 是双目相机,EgoLive 可以进一步恢复深度图和三维场景结构。

论文使用 FoundationStereo 进行深度重建,并生成 1152 × 1152 的深度图。这样一来,每个任务不只是二维视频,而是带有一定三维几何信息的第一视角操作数据。

对于机器人来说,三维信息非常关键。因为机器人最终要在真实空间中移动和操作,不能只停留在二维图像理解。

EgoLive 覆盖了哪些真实任务?

2b3c2625f38951bf9170bfdf11bc2758.png

论文 Figure 4 展示了 EgoLive 的任务类别和语义标签分布。它覆盖了大量真实世界中的操作任务,例如:

整理物品、清洁厨房、清洁浴室、擦玻璃、叠衣服、整理床铺、清洁冰箱、摆放货架、药房工作、物流整理等。

这些任务有一个共同点:它们都是 manipulation-intensive,也就是包含大量手-物交互。

这和普通视频数据很不一样。普通视频可能只是记录“人在做某件事”,但 EgoLive 更关注任务过程中人和物体之间的交互细节。对于机器人学习来说,这类细节才是真正有价值的。

比如机器人要学会“整理床铺”,它不能只知道最后床铺是平整的,还需要理解:

人是怎么抓住被子的角?

怎么展开?

怎么抖动?

怎么把它铺平?

什么时候需要双手协作?

什么时候需要移动身体位置?

这些信息都藏在长流程的第一视角操作视频里。

EgoLive 的语义多样性怎么样?

b06f78c04e029978f7d5bf79046260d4.png

论文进一步对 EgoLive、EgoDex 和 Xperience-10M 做了语义分布对比。Figure 5 分别比较了 object、action 和 attribute 的词频分布。

从图中可以看到,EgoLive 在三个维度上都表现出更长的尾部分布。这说明它不仅包含常见动作和物体,也覆盖了更多低频但真实存在的长尾任务。

这点对机器人泛化非常重要。

如果机器人只见过少数高频任务,比如拿杯子、开抽屉、放苹果,它很难适应复杂真实世界。而真实世界恰恰是长尾的:物体形态不同,场景布局不同,任务流程不同,人的操作方式也不同。

EgoLive 的价值就在于,它试图提供一个更接近真实世界长尾分布的数据基础。

连续特征空间中,EgoLive 也更分散

562465dc6bda1694eaf2f08fb8056858.png

除了离散词频分析,论文还用视觉 embedding 做了连续特征空间分析。具体做法是使用 Cosmos-Embed1-448p 提取图像 embedding,然后用 t-SNE 可视化数据分布。

Figure 6 中可以看到,EgoLive 覆盖了更大的表示空间,同时局部区域也形成了比较清晰的聚类。

这说明 EgoLive 一方面有更广的场景和任务覆盖,另一方面也不是完全杂乱无章的随机视频,而是包含许多具有相似交互模式的局部结构。

这对于训练 embodied foundation model 很重要。模型既需要见过足够多的不同任务,也需要在相似任务中学到稳定的操作规律。

手部关键点标注质量如何?

ee69a157e3aae19c23c2c0af0a721bab.png

论文专门比较了 EgoLive 和 EgoDex 的 2D hand keypoint 质量。

在 Figure 7 中,作者指出 EgoDex 的关键点存在明显的空间偏移,有些 projected skeleton 和真实手部位置没有很好对齐。相比之下,EgoLive 的关键点和图像中的手部位置更加一致。

这对机器人学习很关键。因为如果手部轨迹本身是偏的,那么模型学到的操作动作也可能是不准确的。

尤其在第一视角视频中,手经常会出现遮挡、快速移动、靠近相机、和物体重叠等情况。想要获得稳定的手部标注并不容易。EgoLive 使用双目视觉和后续优化,在一定程度上缓解了这些问题。

3D hand keypoints 和深度重建表现如何?

f1684a3210ef6a7fd4e36fc100052194.png

Figure 8 展示了 3D hand keypoints 在不同视角下的可视化结果,包括第一视角、俯视图、左视图和右视图。

从图中可以看到,手部骨架和点云结构之间的对齐比较稳定,没有明显的 wrist drift。这说明 EgoLive 的 3D 手部重建不仅在 2D 图像上看起来对齐,也在三维空间中保持了较好的空间一致性。

e7d3c7559f1fbbfa864f8a67b5b98772.png

深度重建方面,论文用棋盘格和阶梯结构做了定量评估,测试距离从 0.5m 到 3.5m。结果显示,在典型人类操作距离内,深度误差较低。例如在 500mm 和 700mm 距离下,平均误差约为 3mm;在 900mm 时约为 5.38mm;在 1500mm 时约为 8.75mm。距离越远,误差逐渐增大。

这个结果说明,EgoLive 的深度重建在近距离操作场景中具有较好的精度。而人类操作物体时,手和物体通常就在身体前方较近范围内,因此这种精度对 manipulation learning 是有意义的。

7fea306ef932a2505373fcaf134fc192.png

Figure 10 进一步展示了真实场景中的深度图和点云重建。可以看到,床铺、柜子、货架等场景结构都能被恢复出来。这意味着 EgoLive 不只是捕捉手部动作,也能为模型提供环境几何信息。

语言标注为什么重要?

3a7a03e74ee5a276493afc97a8fa5c90.png

EgoLive 的语言标注并不是简单地给每段视频写一句笼统描述,而是对每个子任务生成更结构化的 caption。

论文强调,一个好的 egocentric manipulation caption 应该包含三个关键元素:

1. 哪只手在操作;2. 操作了什么物体;3. 执行了什么动作。

比如,普通描述可能是:

“擦玻璃门。”

但 EgoLive 希望生成的描述更接近:

“右手拿着白色刮水器,从上到下擦玻璃门。”

这种描述更适合机器人学习,因为它把任务拆成了可操作的 hand-object-action 关系。

当然,自动 caption 也不是完全没有错误。论文 Table 3 中就展示了一些预测错误的例子,比如模型可能识别错物体,或者把动作描述成另一个相似动作。

这也提醒我们,EgoLive 虽然提供了大规模自动标注,但这些标注仍然不是完美 ground truth。未来如果要用它训练高质量 VLA 模型,可能还需要进一步做数据清洗、质量筛选或人工校验。

EgoLive 对 VLA 和具身智能有什么意义?

我觉得这篇论文最重要的意义,不是提出了某个新的模型结构,而是提供了一种数据方向上的信号:

未来机器人学习不能只依赖机器人自己慢慢试,也不能只依赖小规模实验室数据,而是需要大量真实人类操作经验。

EgoLive 提供的正是这种经验。

对于 VLA 模型来说,它可以帮助模型学习:

第一视角下如何观察任务;

人类如何把长任务分解成子任务;

手和物体之间如何交互;

不同场景中的操作流程;

真实世界中的物体、动作和属性分布;

视觉、语言、几何和手部运动之间的对应关系。

对于人形机器人来说,EgoLive 也很有启发。因为人形机器人和人类在视角、双手操作、移动方式上有一定相似性。虽然人类视频不能直接提供机器人 action,但它可以提供任务理解、操作先验和行为模式。

因此,EgoLive 更像是一个面向 embodied foundation model 的“人类经验库”。

这篇工作的局限在哪里?

当然,EgoLive 也不是万能的。

首先,它仍然是人类视频数据,不是机器人执行数据。它没有直接提供机器人可执行的 action。因此,如果要把 EgoLive 用于机器人策略学习,还需要解决 human-to-robot transfer 问题。

比如,人手的自由度和机器人手不同,人类手腕轨迹和机器人末端执行器轨迹也不完全对应。如何把人类操作转成机器人可执行动作,仍然需要 retargeting、representation alignment 或 policy adaptation。

其次,虽然 EgoLive 提供了手部关键点、深度图和相机轨迹,但这些标注很多来自自动算法估计。它们质量较高,但仍然可能受到遮挡、反光、快速运动和复杂场景的影响。

第三,它没有触觉或力觉信息。对于很多精细操作,比如插入、拧紧、按压、夹取易碎物体,视觉并不能完全反映真实接触状态。因此 EgoLive 更适合学习视觉、语义、几何和运动先验,但还不能直接覆盖 tactile-aware manipulation。

最后,自动生成的语言描述也会有错误。对于大规模数据来说,这是可以理解的,但如果用于高精度机器人学习,仍然需要考虑 caption 质量控制。

总结:EgoLive 是具身智能数据路线的一次重要推进

整体来看,EgoLive 是一个非常值得关注的数据集。它的核心价值可以总结为三点。

第一,它把 egocentric human video 数据推进到了更真实、更大规模的任务场景

它不是只采集厨房或桌面操作,而是覆盖家政、零售、药房、物流等真实工作场景。

第二,它提供了比普通视频更丰富的多模态标注

包括手部轨迹、3D hand keypoints、相机位姿、深度图、手和物体 mask、子任务分割以及语言描述。

第三,它为未来 VLA、人形机器人和 human-to-robot transfer 提供了重要的数据基础。

虽然它不能直接解决机器人动作学习问题,但它可以帮助模型先理解人类如何在真实世界中完成任务。

如果说大语言模型从互联网文本中学习人类知识,那么未来的 embodied foundation model 也许需要从大量真实人类第一视角数据中学习“人类如何行动”。

从这个角度看,EgoLive 的意义不只是发布了一个数据集,而是进一步说明: 具身智能的下一阶段,可能会越来越依赖大规模、真实世界、任务导向的人类经验数据。

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×