阅读时间大约10分钟以上(4733字)
出品:具身视界
在大模型领域,一个几乎已经被反复验证的规律是:模型能力的提升,很大程度上来自大规模、高质量、多样化的数据。
语言模型之所以能快速发展,是因为互联网上存在海量文本;视觉语言模型之所以能理解图文,也是因为有大量图像-文本数据可供训练。
但到了具身智能和机器人领域,问题就变得困难了很多。
机器人不是只需要“看懂图片”或“理解语言”,它还需要知道:
人类是怎么拿起一个杯子的?
怎么擦一扇玻璃门?
怎么整理衣服、清洁冰箱、摆放货架?
更进一步,它还要理解一个长任务是如何一步步完成的。
这些知识并不容易从普通图文数据中学到。机器人需要的是大量真实世界中的操作经验。
这正是 EgoLive: A Large-Scale Egocentric Dataset from Real-World Human Tasks 这篇论文想解决的问题。论文提出了一个由京东 Joy Future Academy 构建的大规模第一视角人类操作数据集 EgoLive。它包含 1680 小时视频、65,866 个 episode、346 类真实任务,并提供手部轨迹、深度图、相机位姿、手和交互物体 mask、子任务分割以及语言描述等多模态标注。
简单来说,EgoLive 想做的是: 让机器人先从大量真实人类第一视角操作数据中,学习人类是如何在真实世界里完成任务的。
为什么机器人需要第一视角人类数据?
过去,机器人学习数据主要有几种来源。
第一种是真机遥操作。比如研究人员用遥操作设备控制机械臂,让机器人真实执行任务。这类数据的好处是动作可以直接用于机器人训练,但缺点也很明显:设备复杂、成本高、采集慢,很难扩展到互联网级别的数据规模。
第二种是 UMI,也就是 Universal Manipulation Interface。它通常让人拿着带相机的夹爪去完成任务,从而采集接近机器人视角的数据。这种方式比真机遥操作更灵活,但它依然和某种具体工具或夹爪形态绑定,不太适合直接覆盖灵巧手、双手操作或更复杂的人类自然动作。
第三种就是近年来越来越受关注的方向:人类第一视角视频数据。也就是让人戴上头戴式相机,在真实环境中自然完成各种任务。
这种方式有几个明显优势。
首先,它更容易规模化。相比采集机器人数据,采集人类第一视角视频的成本低得多。
其次,它更自然。人类不需要拿着特殊夹爪,也不需要站在固定实验环境里,可以在真实家庭、商店、药房、仓库等环境中完成任务。
最后,它保留了人类手部操作的丰富细节。尤其对于灵巧操作、双手协作、长流程任务来说,人类第一视角数据能够提供非常有价值的操作先验。
EgoLive 就是沿着这条路线构建的。
EgoLive 到底有多大?

论文开头的 Figure 1 给出了 EgoLive 的基本规模。这个数据集包含:
这个规模在当前面向机器人学习的第一视角数据集中已经非常大。更重要的是,EgoLive 不只是普通生活视频,而是围绕真实任务和真实工作流程采集的。
它覆盖的场景包括家政服务、物品整理、清洁、零售、药房、物流、仓储等。也就是说,它关注的不只是“人在厨房里做饭”这种常见场景,而是更接近未来服务机器人、人形机器人可能真正面对的工作环境。
这也是 EgoLive 和很多已有 egocentric dataset 的一个重要区别:它不是只追求视频时长,而是希望构建一个更适合机器人学习的真实任务经验库。
EgoLive 和已有数据集有什么不同?
论文中把已有第一视角数据集大致分成三类。
第一类是通用型 egocentric dataset,比如 EPIC-KITCHENS-100 和 Ego4D。它们非常适合动作识别、视频理解和第一视角表示学习,但对于机器人操作来说还不够。因为它们通常缺少机器人学习需要的几何和运动信号,比如手部 3D keypoints、相机轨迹、深度图、手和物体的 mask、子任务边界等。
第二类是 manipulation-centric dataset,比如 HOI4D、HOT3D、EgoMimic、EgoDex。这些数据更关注手-物交互,离机器人操作更近。但很多数据仍然集中在实验室、桌面或家庭环境中,对真实服务场景和长流程工作任务的覆盖有限。
第三类是 deployment-scale dataset,比如 Egocentric-10K 和 Xperience-10M。这些数据更接近真实部署场景,但有些数据的标注较稀疏,或者视频质量、分辨率、帧率、几何标注完整性不如 EgoLive。

从论文 Table 1 可以看到,EgoLive 的特点是比较均衡:
它有真实世界场景,有较大规模,有高分辨率和高帧率,也有 motion tracking、language annotation 和 depth annotation。
这使它不只是一个“视频数据集”,而更像是一个为机器人学习准备的多模态人类操作数据集。
EgoLive 是怎么采集的?
EgoLive 使用了自研头戴式设备 JoyEgoCam。这个设备配备双目 RGB 相机,视场角为 130° × 130°,视频分辨率为 2160 × 2160,帧率为 60 FPS,同时还集成了 200Hz IMU。
这个硬件设计的关键点是:尽量不打扰人的自然操作。
如果使用 VR 头显,设备会遮挡人的脸,也可能影响自然行为;如果使用 UMI 夹爪,人类的手部形态和真实操作方式会被改变。而 JoyEgoCam 是头戴式的,人仍然可以用自己的双手自然操作物体。
这对机器人学习很重要。因为我们真正想学习的,不只是“任务完成了什么结果”,而是人类在真实世界中如何观察、如何伸手、如何抓取、如何调整、如何完成连续操作。
尤其对于长任务和灵巧操作来说,这种自然人类数据会比人为设计的实验室数据更接近真实应用场景。
EgoLive 不只是视频,它还提供了丰富标注

EgoLive 的另一个重点是它的自动标注 pipeline。论文 Figure 3 展示了从原始双目视频到多模态标注的完整流程。
整个 pipeline 可以分成三个部分。
第一,Motion Tracking
系统会估计手腕和手部关节的 6D 轨迹,同时结合相机自身运动,建立动作参考坐标系。
具体来说,论文使用 HaMeR 和 MANO 进行手部重建。流程大致是:先从单目视频中估计 MANO 手模型参数,再利用双目 stereo 信息进一步优化 3D 手部关键点。
这一步的意义在于,模型不只是知道“图像里有一只手”,还可以获得更结构化的手部运动信息。
第二,Semantic Understanding
EgoLive 会识别手、交互物体、动作状态,并生成语言描述。
它的流程包括:
先检测人手和交互物体,然后用 BoT-SORT 进行跟踪,用 SAM2 生成手和物体的 segmentation mask,再把每个 episode 划分成多个子任务片段,最后用 fine-tuned Qwen3-VL-32B 生成细粒度 instruction caption。
这使得 EgoLive 不仅有视觉数据,也有语言层面的任务描述。
比如一个任务不是简单标注成“cleaning”,而是可以细化到:
“右手拿着白色刮水器,从上到下擦玻璃。”
这种描述对 VLA 模型非常有价值,因为它把手、物体、动作和任务意图连接起来了。
第三,3D Reconstruction
因为 JoyEgoCam 是双目相机,EgoLive 可以进一步恢复深度图和三维场景结构。
论文使用 FoundationStereo 进行深度重建,并生成 1152 × 1152 的深度图。这样一来,每个任务不只是二维视频,而是带有一定三维几何信息的第一视角操作数据。
对于机器人来说,三维信息非常关键。因为机器人最终要在真实空间中移动和操作,不能只停留在二维图像理解。
EgoLive 覆盖了哪些真实任务?

论文 Figure 4 展示了 EgoLive 的任务类别和语义标签分布。它覆盖了大量真实世界中的操作任务,例如:
整理物品、清洁厨房、清洁浴室、擦玻璃、叠衣服、整理床铺、清洁冰箱、摆放货架、药房工作、物流整理等。
这些任务有一个共同点:它们都是 manipulation-intensive,也就是包含大量手-物交互。
这和普通视频数据很不一样。普通视频可能只是记录“人在做某件事”,但 EgoLive 更关注任务过程中人和物体之间的交互细节。对于机器人学习来说,这类细节才是真正有价值的。
比如机器人要学会“整理床铺”,它不能只知道最后床铺是平整的,还需要理解:
人是怎么抓住被子的角?
怎么展开?
怎么抖动?
怎么把它铺平?
什么时候需要双手协作?
什么时候需要移动身体位置?
这些信息都藏在长流程的第一视角操作视频里。
EgoLive 的语义多样性怎么样?

论文进一步对 EgoLive、EgoDex 和 Xperience-10M 做了语义分布对比。Figure 5 分别比较了 object、action 和 attribute 的词频分布。
从图中可以看到,EgoLive 在三个维度上都表现出更长的尾部分布。这说明它不仅包含常见动作和物体,也覆盖了更多低频但真实存在的长尾任务。
这点对机器人泛化非常重要。
如果机器人只见过少数高频任务,比如拿杯子、开抽屉、放苹果,它很难适应复杂真实世界。而真实世界恰恰是长尾的:物体形态不同,场景布局不同,任务流程不同,人的操作方式也不同。
EgoLive 的价值就在于,它试图提供一个更接近真实世界长尾分布的数据基础。
连续特征空间中,EgoLive 也更分散

除了离散词频分析,论文还用视觉 embedding 做了连续特征空间分析。具体做法是使用 Cosmos-Embed1-448p 提取图像 embedding,然后用 t-SNE 可视化数据分布。
Figure 6 中可以看到,EgoLive 覆盖了更大的表示空间,同时局部区域也形成了比较清晰的聚类。
这说明 EgoLive 一方面有更广的场景和任务覆盖,另一方面也不是完全杂乱无章的随机视频,而是包含许多具有相似交互模式的局部结构。
这对于训练 embodied foundation model 很重要。模型既需要见过足够多的不同任务,也需要在相似任务中学到稳定的操作规律。
手部关键点标注质量如何?

论文专门比较了 EgoLive 和 EgoDex 的 2D hand keypoint 质量。
在 Figure 7 中,作者指出 EgoDex 的关键点存在明显的空间偏移,有些 projected skeleton 和真实手部位置没有很好对齐。相比之下,EgoLive 的关键点和图像中的手部位置更加一致。
这对机器人学习很关键。因为如果手部轨迹本身是偏的,那么模型学到的操作动作也可能是不准确的。
尤其在第一视角视频中,手经常会出现遮挡、快速移动、靠近相机、和物体重叠等情况。想要获得稳定的手部标注并不容易。EgoLive 使用双目视觉和后续优化,在一定程度上缓解了这些问题。
3D hand keypoints 和深度重建表现如何?

Figure 8 展示了 3D hand keypoints 在不同视角下的可视化结果,包括第一视角、俯视图、左视图和右视图。
从图中可以看到,手部骨架和点云结构之间的对齐比较稳定,没有明显的 wrist drift。这说明 EgoLive 的 3D 手部重建不仅在 2D 图像上看起来对齐,也在三维空间中保持了较好的空间一致性。

深度重建方面,论文用棋盘格和阶梯结构做了定量评估,测试距离从 0.5m 到 3.5m。结果显示,在典型人类操作距离内,深度误差较低。例如在 500mm 和 700mm 距离下,平均误差约为 3mm;在 900mm 时约为 5.38mm;在 1500mm 时约为 8.75mm。距离越远,误差逐渐增大。
这个结果说明,EgoLive 的深度重建在近距离操作场景中具有较好的精度。而人类操作物体时,手和物体通常就在身体前方较近范围内,因此这种精度对 manipulation learning 是有意义的。

Figure 10 进一步展示了真实场景中的深度图和点云重建。可以看到,床铺、柜子、货架等场景结构都能被恢复出来。这意味着 EgoLive 不只是捕捉手部动作,也能为模型提供环境几何信息。
语言标注为什么重要?

EgoLive 的语言标注并不是简单地给每段视频写一句笼统描述,而是对每个子任务生成更结构化的 caption。
论文强调,一个好的 egocentric manipulation caption 应该包含三个关键元素:
1. 哪只手在操作;2. 操作了什么物体;3. 执行了什么动作。
比如,普通描述可能是:
“擦玻璃门。”
但 EgoLive 希望生成的描述更接近:
“右手拿着白色刮水器,从上到下擦玻璃门。”
这种描述更适合机器人学习,因为它把任务拆成了可操作的 hand-object-action 关系。
当然,自动 caption 也不是完全没有错误。论文 Table 3 中就展示了一些预测错误的例子,比如模型可能识别错物体,或者把动作描述成另一个相似动作。
这也提醒我们,EgoLive 虽然提供了大规模自动标注,但这些标注仍然不是完美 ground truth。未来如果要用它训练高质量 VLA 模型,可能还需要进一步做数据清洗、质量筛选或人工校验。
EgoLive 对 VLA 和具身智能有什么意义?
我觉得这篇论文最重要的意义,不是提出了某个新的模型结构,而是提供了一种数据方向上的信号:
未来机器人学习不能只依赖机器人自己慢慢试,也不能只依赖小规模实验室数据,而是需要大量真实人类操作经验。
EgoLive 提供的正是这种经验。
对于 VLA 模型来说,它可以帮助模型学习:
第一视角下如何观察任务;
人类如何把长任务分解成子任务;
手和物体之间如何交互;
不同场景中的操作流程;
真实世界中的物体、动作和属性分布;
视觉、语言、几何和手部运动之间的对应关系。
对于人形机器人来说,EgoLive 也很有启发。因为人形机器人和人类在视角、双手操作、移动方式上有一定相似性。虽然人类视频不能直接提供机器人 action,但它可以提供任务理解、操作先验和行为模式。
因此,EgoLive 更像是一个面向 embodied foundation model 的“人类经验库”。
这篇工作的局限在哪里?
当然,EgoLive 也不是万能的。
首先,它仍然是人类视频数据,不是机器人执行数据。它没有直接提供机器人可执行的 action。因此,如果要把 EgoLive 用于机器人策略学习,还需要解决 human-to-robot transfer 问题。
比如,人手的自由度和机器人手不同,人类手腕轨迹和机器人末端执行器轨迹也不完全对应。如何把人类操作转成机器人可执行动作,仍然需要 retargeting、representation alignment 或 policy adaptation。
其次,虽然 EgoLive 提供了手部关键点、深度图和相机轨迹,但这些标注很多来自自动算法估计。它们质量较高,但仍然可能受到遮挡、反光、快速运动和复杂场景的影响。
第三,它没有触觉或力觉信息。对于很多精细操作,比如插入、拧紧、按压、夹取易碎物体,视觉并不能完全反映真实接触状态。因此 EgoLive 更适合学习视觉、语义、几何和运动先验,但还不能直接覆盖 tactile-aware manipulation。
最后,自动生成的语言描述也会有错误。对于大规模数据来说,这是可以理解的,但如果用于高精度机器人学习,仍然需要考虑 caption 质量控制。
总结:EgoLive 是具身智能数据路线的一次重要推进
整体来看,EgoLive 是一个非常值得关注的数据集。它的核心价值可以总结为三点。
第一,它把 egocentric human video 数据推进到了更真实、更大规模的任务场景。
它不是只采集厨房或桌面操作,而是覆盖家政、零售、药房、物流等真实工作场景。
第二,它提供了比普通视频更丰富的多模态标注。
包括手部轨迹、3D hand keypoints、相机位姿、深度图、手和物体 mask、子任务分割以及语言描述。
第三,它为未来 VLA、人形机器人和 human-to-robot transfer 提供了重要的数据基础。
虽然它不能直接解决机器人动作学习问题,但它可以帮助模型先理解人类如何在真实世界中完成任务。
如果说大语言模型从互联网文本中学习人类知识,那么未来的 embodied foundation model 也许需要从大量真实人类第一视角数据中学习“人类如何行动”。
从这个角度看,EgoLive 的意义不只是发布了一个数据集,而是进一步说明: 具身智能的下一阶段,可能会越来越依赖大规模、真实世界、任务导向的人类经验数据。
