京东开源 1680 小时第一视角人类操作数据，具身智能终于开始认真“看人怎么做事”

阅读时间大约10分钟以上（4733字）

2026-05-26 京东开源 1680 小时第一视角人类操作数据，具身智能终于开始认真“看人怎么做事”

来源：豆包

EgoLive 是具身智能数据路线的一次重要推进

出品：具身视界

在大模型领域，一个几乎已经被反复验证的规律是：模型能力的提升，很大程度上来自大规模、高质量、多样化的数据。

语言模型之所以能快速发展，是因为互联网上存在海量文本；视觉语言模型之所以能理解图文，也是因为有大量图像-文本数据可供训练。

但到了具身智能和机器人领域，问题就变得困难了很多。

机器人不是只需要“看懂图片”或“理解语言”，它还需要知道：

人类是怎么拿起一个杯子的？

怎么擦一扇玻璃门？

怎么整理衣服、清洁冰箱、摆放货架？

更进一步，它还要理解一个长任务是如何一步步完成的。

这些知识并不容易从普通图文数据中学到。机器人需要的是大量真实世界中的操作经验。

这正是 EgoLive: A Large-Scale Egocentric Dataset from Real-World Human Tasks 这篇论文想解决的问题。论文提出了一个由京东 Joy Future Academy 构建的大规模第一视角人类操作数据集 EgoLive。它包含 1680 小时视频、65,866 个 episode、346 类真实任务，并提供手部轨迹、深度图、相机位姿、手和交互物体 mask、子任务分割以及语言描述等多模态标注。

简单来说，EgoLive 想做的是： 让机器人先从大量真实人类第一视角操作数据中，学习人类是如何在真实世界里完成任务的。

为什么机器人需要第一视角人类数据？

过去，机器人学习数据主要有几种来源。

第一种是真机遥操作。比如研究人员用遥操作设备控制机械臂，让机器人真实执行任务。这类数据的好处是动作可以直接用于机器人训练，但缺点也很明显：设备复杂、成本高、采集慢，很难扩展到互联网级别的数据规模。

第二种是 UMI，也就是 Universal Manipulation Interface。它通常让人拿着带相机的夹爪去完成任务，从而采集接近机器人视角的数据。这种方式比真机遥操作更灵活，但它依然和某种具体工具或夹爪形态绑定，不太适合直接覆盖灵巧手、双手操作或更复杂的人类自然动作。

第三种就是近年来越来越受关注的方向：人类第一视角视频数据。也就是让人戴上头戴式相机，在真实环境中自然完成各种任务。

这种方式有几个明显优势。

首先，它更容易规模化。相比采集机器人数据，采集人类第一视角视频的成本低得多。

其次，它更自然。人类不需要拿着特殊夹爪，也不需要站在固定实验环境里，可以在真实家庭、商店、药房、仓库等环境中完成任务。

最后，它保留了人类手部操作的丰富细节。尤其对于灵巧操作、双手协作、长流程任务来说，人类第一视角数据能够提供非常有价值的操作先验。

EgoLive 就是沿着这条路线构建的。

EgoLive 到底有多大？

论文开头的 Figure 1 给出了 EgoLive 的基本规模。这个数据集包含：

这个规模在当前面向机器人学习的第一视角数据集中已经非常大。更重要的是，EgoLive 不只是普通生活视频，而是围绕真实任务和真实工作流程采集的。

它覆盖的场景包括家政服务、物品整理、清洁、零售、药房、物流、仓储等。也就是说，它关注的不只是“人在厨房里做饭”这种常见场景，而是更接近未来服务机器人、人形机器人可能真正面对的工作环境。

这也是 EgoLive 和很多已有 egocentric dataset 的一个重要区别：它不是只追求视频时长，而是希望构建一个更适合机器人学习的真实任务经验库。

EgoLive 和已有数据集有什么不同？

论文中把已有第一视角数据集大致分成三类。

第一类是通用型 egocentric dataset，比如 EPIC-KITCHENS-100 和 Ego4D。它们非常适合动作识别、视频理解和第一视角表示学习，但对于机器人操作来说还不够。因为它们通常缺少机器人学习需要的几何和运动信号，比如手部 3D keypoints、相机轨迹、深度图、手和物体的 mask、子任务边界等。

第二类是 manipulation-centric dataset，比如 HOI4D、HOT3D、EgoMimic、EgoDex。这些数据更关注手-物交互，离机器人操作更近。但很多数据仍然集中在实验室、桌面或家庭环境中，对真实服务场景和长流程工作任务的覆盖有限。

第三类是 deployment-scale dataset，比如 Egocentric-10K 和 Xperience-10M。这些数据更接近真实部署场景，但有些数据的标注较稀疏，或者视频质量、分辨率、帧率、几何标注完整性不如 EgoLive。

从论文 Table 1 可以看到，EgoLive 的特点是比较均衡：

它有真实世界场景，有较大规模，有高分辨率和高帧率，也有 motion tracking、language annotation 和 depth annotation。

这使它不只是一个“视频数据集”，而更像是一个为机器人学习准备的多模态人类操作数据集。

EgoLive 是怎么采集的？

EgoLive 使用了自研头戴式设备 JoyEgoCam。这个设备配备双目 RGB 相机，视场角为 130° × 130°，视频分辨率为 2160 × 2160，帧率为 60 FPS，同时还集成了 200Hz IMU。

这个硬件设计的关键点是：尽量不打扰人的自然操作。

如果使用 VR 头显，设备会遮挡人的脸，也可能影响自然行为；如果使用 UMI 夹爪，人类的手部形态和真实操作方式会被改变。而 JoyEgoCam 是头戴式的，人仍然可以用自己的双手自然操作物体。

这对机器人学习很重要。因为我们真正想学习的，不只是“任务完成了什么结果”，而是人类在真实世界中如何观察、如何伸手、如何抓取、如何调整、如何完成连续操作。

尤其对于长任务和灵巧操作来说，这种自然人类数据会比人为设计的实验室数据更接近真实应用场景。

EgoLive 不只是视频，它还提供了丰富标注

EgoLive 的另一个重点是它的自动标注 pipeline。论文 Figure 3 展示了从原始双目视频到多模态标注的完整流程。

整个 pipeline 可以分成三个部分。

第一，Motion Tracking

系统会估计手腕和手部关节的 6D 轨迹，同时结合相机自身运动，建立动作参考坐标系。

具体来说，论文使用 HaMeR 和 MANO 进行手部重建。流程大致是：先从单目视频中估计 MANO 手模型参数，再利用双目 stereo 信息进一步优化 3D 手部关键点。

这一步的意义在于，模型不只是知道“图像里有一只手”，还可以获得更结构化的手部运动信息。

第二，Semantic Understanding

EgoLive 会识别手、交互物体、动作状态，并生成语言描述。

它的流程包括：

先检测人手和交互物体，然后用 BoT-SORT 进行跟踪，用 SAM2 生成手和物体的 segmentation mask，再把每个 episode 划分成多个子任务片段，最后用 fine-tuned Qwen3-VL-32B 生成细粒度 instruction caption。

这使得 EgoLive 不仅有视觉数据，也有语言层面的任务描述。

比如一个任务不是简单标注成“cleaning”，而是可以细化到：

“右手拿着白色刮水器，从上到下擦玻璃。”

这种描述对 VLA 模型非常有价值，因为它把手、物体、动作和任务意图连接起来了。

第三，3D Reconstruction

因为 JoyEgoCam 是双目相机，EgoLive 可以进一步恢复深度图和三维场景结构。

论文使用 FoundationStereo 进行深度重建，并生成 1152 × 1152 的深度图。这样一来，每个任务不只是二维视频，而是带有一定三维几何信息的第一视角操作数据。

对于机器人来说，三维信息非常关键。因为机器人最终要在真实空间中移动和操作，不能只停留在二维图像理解。

EgoLive 覆盖了哪些真实任务？

论文 Figure 4 展示了 EgoLive 的任务类别和语义标签分布。它覆盖了大量真实世界中的操作任务，例如：

整理物品、清洁厨房、清洁浴室、擦玻璃、叠衣服、整理床铺、清洁冰箱、摆放货架、药房工作、物流整理等。

这些任务有一个共同点：它们都是 manipulation-intensive，也就是包含大量手-物交互。

这和普通视频数据很不一样。普通视频可能只是记录“人在做某件事”，但 EgoLive 更关注任务过程中人和物体之间的交互细节。对于机器人学习来说，这类细节才是真正有价值的。

比如机器人要学会“整理床铺”，它不能只知道最后床铺是平整的，还需要理解：

人是怎么抓住被子的角？

怎么展开？

怎么抖动？

怎么把它铺平？

什么时候需要双手协作？

什么时候需要移动身体位置？

这些信息都藏在长流程的第一视角操作视频里。

EgoLive 的语义多样性怎么样？

论文进一步对 EgoLive、EgoDex 和 Xperience-10M 做了语义分布对比。Figure 5 分别比较了 object、action 和 attribute 的词频分布。

从图中可以看到，EgoLive 在三个维度上都表现出更长的尾部分布。这说明它不仅包含常见动作和物体，也覆盖了更多低频但真实存在的长尾任务。

这点对机器人泛化非常重要。

如果机器人只见过少数高频任务，比如拿杯子、开抽屉、放苹果，它很难适应复杂真实世界。而真实世界恰恰是长尾的：物体形态不同，场景布局不同，任务流程不同，人的操作方式也不同。

EgoLive 的价值就在于，它试图提供一个更接近真实世界长尾分布的数据基础。

连续特征空间中，EgoLive 也更分散

除了离散词频分析，论文还用视觉 embedding 做了连续特征空间分析。具体做法是使用 Cosmos-Embed1-448p 提取图像 embedding，然后用 t-SNE 可视化数据分布。

Figure 6 中可以看到，EgoLive 覆盖了更大的表示空间，同时局部区域也形成了比较清晰的聚类。

这说明 EgoLive 一方面有更广的场景和任务覆盖，另一方面也不是完全杂乱无章的随机视频，而是包含许多具有相似交互模式的局部结构。

这对于训练 embodied foundation model 很重要。模型既需要见过足够多的不同任务，也需要在相似任务中学到稳定的操作规律。

手部关键点标注质量如何？

论文专门比较了 EgoLive 和 EgoDex 的 2D hand keypoint 质量。

在 Figure 7 中，作者指出 EgoDex 的关键点存在明显的空间偏移，有些 projected skeleton 和真实手部位置没有很好对齐。相比之下，EgoLive 的关键点和图像中的手部位置更加一致。

这对机器人学习很关键。因为如果手部轨迹本身是偏的，那么模型学到的操作动作也可能是不准确的。

尤其在第一视角视频中，手经常会出现遮挡、快速移动、靠近相机、和物体重叠等情况。想要获得稳定的手部标注并不容易。EgoLive 使用双目视觉和后续优化，在一定程度上缓解了这些问题。

3D hand keypoints 和深度重建表现如何？

Figure 8 展示了 3D hand keypoints 在不同视角下的可视化结果，包括第一视角、俯视图、左视图和右视图。

从图中可以看到，手部骨架和点云结构之间的对齐比较稳定，没有明显的 wrist drift。这说明 EgoLive 的 3D 手部重建不仅在 2D 图像上看起来对齐，也在三维空间中保持了较好的空间一致性。

深度重建方面，论文用棋盘格和阶梯结构做了定量评估，测试距离从 0.5m 到 3.5m。结果显示，在典型人类操作距离内，深度误差较低。例如在 500mm 和 700mm 距离下，平均误差约为 3mm；在 900mm 时约为 5.38mm；在 1500mm 时约为 8.75mm。距离越远，误差逐渐增大。

这个结果说明，EgoLive 的深度重建在近距离操作场景中具有较好的精度。而人类操作物体时，手和物体通常就在身体前方较近范围内，因此这种精度对 manipulation learning 是有意义的。

Figure 10 进一步展示了真实场景中的深度图和点云重建。可以看到，床铺、柜子、货架等场景结构都能被恢复出来。这意味着 EgoLive 不只是捕捉手部动作，也能为模型提供环境几何信息。

语言标注为什么重要？

EgoLive 的语言标注并不是简单地给每段视频写一句笼统描述，而是对每个子任务生成更结构化的 caption。

论文强调，一个好的 egocentric manipulation caption 应该包含三个关键元素：

1. 哪只手在操作；2. 操作了什么物体；3. 执行了什么动作。

比如，普通描述可能是：

“擦玻璃门。”

但 EgoLive 希望生成的描述更接近：

“右手拿着白色刮水器，从上到下擦玻璃门。”

这种描述更适合机器人学习，因为它把任务拆成了可操作的 hand-object-action 关系。

当然，自动 caption 也不是完全没有错误。论文 Table 3 中就展示了一些预测错误的例子，比如模型可能识别错物体，或者把动作描述成另一个相似动作。

这也提醒我们，EgoLive 虽然提供了大规模自动标注，但这些标注仍然不是完美 ground truth。未来如果要用它训练高质量 VLA 模型，可能还需要进一步做数据清洗、质量筛选或人工校验。

EgoLive 对 VLA 和具身智能有什么意义？

我觉得这篇论文最重要的意义，不是提出了某个新的模型结构，而是提供了一种数据方向上的信号：

未来机器人学习不能只依赖机器人自己慢慢试，也不能只依赖小规模实验室数据，而是需要大量真实人类操作经验。

EgoLive 提供的正是这种经验。

对于 VLA 模型来说，它可以帮助模型学习：

第一视角下如何观察任务；

人类如何把长任务分解成子任务；

手和物体之间如何交互；

不同场景中的操作流程；

真实世界中的物体、动作和属性分布；

视觉、语言、几何和手部运动之间的对应关系。

对于人形机器人来说，EgoLive 也很有启发。因为人形机器人和人类在视角、双手操作、移动方式上有一定相似性。虽然人类视频不能直接提供机器人 action，但它可以提供任务理解、操作先验和行为模式。

因此，EgoLive 更像是一个面向 embodied foundation model 的“人类经验库”。

这篇工作的局限在哪里？

当然，EgoLive 也不是万能的。

首先，它仍然是人类视频数据，不是机器人执行数据。它没有直接提供机器人可执行的 action。因此，如果要把 EgoLive 用于机器人策略学习，还需要解决 human-to-robot transfer 问题。

比如，人手的自由度和机器人手不同，人类手腕轨迹和机器人末端执行器轨迹也不完全对应。如何把人类操作转成机器人可执行动作，仍然需要 retargeting、representation alignment 或 policy adaptation。

其次，虽然 EgoLive 提供了手部关键点、深度图和相机轨迹，但这些标注很多来自自动算法估计。它们质量较高，但仍然可能受到遮挡、反光、快速运动和复杂场景的影响。

第三，它没有触觉或力觉信息。对于很多精细操作，比如插入、拧紧、按压、夹取易碎物体，视觉并不能完全反映真实接触状态。因此 EgoLive 更适合学习视觉、语义、几何和运动先验，但还不能直接覆盖 tactile-aware manipulation。

最后，自动生成的语言描述也会有错误。对于大规模数据来说，这是可以理解的，但如果用于高精度机器人学习，仍然需要考虑 caption 质量控制。

总结：EgoLive 是具身智能数据路线的一次重要推进

整体来看，EgoLive 是一个非常值得关注的数据集。它的核心价值可以总结为三点。

第一，它把 egocentric human video 数据推进到了更真实、更大规模的任务场景。

它不是只采集厨房或桌面操作，而是覆盖家政、零售、药房、物流等真实工作场景。

第二，它提供了比普通视频更丰富的多模态标注。

包括手部轨迹、3D hand keypoints、相机位姿、深度图、手和物体 mask、子任务分割以及语言描述。

第三，它为未来 VLA、人形机器人和 human-to-robot transfer 提供了重要的数据基础。

虽然它不能直接解决机器人动作学习问题，但它可以帮助模型先理解人类如何在真实世界中完成任务。

如果说大语言模型从互联网文本中学习人类知识，那么未来的 embodied foundation model 也许需要从大量真实人类第一视角数据中学习“人类如何行动”。

从这个角度看，EgoLive 的意义不只是发布了一个数据集，而是进一步说明：具身智能的下一阶段，可能会越来越依赖大规模、真实世界、任务导向的人类经验数据。

具身智能

${{item.author_display_name}}$

右键可直接复制图片

2026-05-26 京东开源 1680 小时第一视角人类操作数据，具身智能终于开始认真“看人怎么做事”

清研精准完成数亿元B轮系列融资

他山科技完成数亿元B轮融资

无界智航完成首轮近亿元天使轮融资

48小时挑战机器边界！「探月计划黑客松」200位选手有惊喜

开创可信具身智能架构新范式，Xspark AI获亿元天使轮融资，加速Physical AI规模化落地

VLA 给出动作以后，机器人为什么还不能直接动？

2026-05-26 京东开源 1680 小时第一视角人类操作数据，具身智能终于开始认真“看人怎么做事”

{{item.post_title}}

清研精准完成数亿元B轮系列融资

他山科技完成数亿元B轮融资

无界智航完成首轮近亿元天使轮融资

48小时挑战机器边界！「探月计划黑客松」200位选手有惊喜

开创可信具身智能架构新范式，Xspark AI获亿元天使轮融资，加速Physical AI规模化落地

VLA 给出动作以后，机器人为什么还不能直接动？