阅读时间大约10分钟以上(5207字)
出品:具身释界
机器人学习一直有一个很现实的问题:数据太贵了。
如果我们想让机器人学会一个新任务,通常需要真人拿着遥操作设备,一遍又一遍地控制机器人完成任务。每一个动作都要在真实硬件上采,每一个场景都要布置,每一个任务都要重新示教。对于简单任务还好,一旦任务变成长时序、双臂协作、接触丰富的操作,数据采集成本就会迅速上升。
但反过来看,人类操作数据其实非常容易获得。
一个人戴上第一视角眼镜,拿起面包、倒一杯水、整理杯子、打开水龙头,几分钟就能采到大量自然的操作视频。问题是:这些人类视频真的能直接教会机器人吗?
这就是这篇论文 HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos 想解决的问题。
它的目标非常直接:
能不能只用几分钟人类第一视角视频,不用任何机器人示教数据,就训练出一个可以直接部署到真实机器人上的策略?
更进一步,它不是先用人类视频预训练,再用机器人数据微调;也不是需要大规模互联网视频和超大模型。HumanEgo 想做的是一条更“轻”的路线:
一个人戴着 Aria glasses 采任务视频,系统把人类操作转成可迁移的手-物交互表示,然后直接训练机器人策略。
论文 Fig.1 很直观地展示了这个思路:左边是人戴着第一视角眼镜做任务,中间是把视频转成 interaction-centric representation,再训练一个 flow matching policy,右边则是机器人在不同环境和不同硬件上直接执行任务。

这篇文章最有意思的地方在于,它没有让机器人去“模仿人的手”。
因为人和机器人的差别太大了。
人的手有五根手指,机器人可能是平行夹爪;人的手臂外观、运动方式、相机视角,都和机器人完全不同。如果直接让机器人模仿人的像素或关节轨迹,很容易被 embodiment gap 卡住。
HumanEgo 的核心观点是:
机器人不应该模仿人的身体,而应该恢复任务中真正可迁移的交互几何关系。
换句话说,机器人真正需要学的不是“人的手长什么样”,而是:
手是怎么靠近物体的?
什么时候接触物体?
抓住之后物体如何移动?
左右手之间如何配合?
物体最后被放到了哪里?
这才是人类操作里可以迁移到机器人上的信息。
为什么人类第一视角视频这么重要?
过去很多 VLA 或 imitation learning 工作,依赖的还是机器人数据。机器人数据质量很高,因为它天然包含机器人能执行的动作。但它的问题也很明显:采集慢、硬件贵、任务扩展困难。
相比之下,人类第一视角视频有几个天然优势。
第一,它采集非常快。
一个人戴上眼镜,在普通环境里就能完成示教,不需要机器人、不需要遥操作设备,也不需要专门搭建实验台。
第二,它更自然。
人类做任务的时候动作通常更流畅,也更少出现遥操作里常见的停顿、抖动和无效动作。
第三,它覆盖的任务空间更广。
人可以很容易在不同桌面、不同光照、不同物体位置下重复完成任务,这会让数据本身有更好的多样性。
HumanEgo 正是抓住了这个机会:既然人类第一视角视频便宜、自然、多样,那么能不能把它变成机器人真正能用的训练数据?
关键难点就在于:如何跨过人和机器人之间的 embodiment gap。
HumanEgo 的整体流程:从人类视频到机器人动作
论文 Fig.2 展示了 HumanEgo 的完整 pipeline。整个方法可以分成四步:
第一步,人戴着 Aria glasses 采集第一视角视频。
第二步,把视频里的人的手臂去掉,并渲染虚拟 gripper 和物体关键点。
第三步,把手和物体之间的空间关系编码成 Interaction-Centric Tokens。
第四步,用这些表示训练一个 Flow Matching Policy,输出双臂机器人动作。

可以把这个过程理解成:
原始视频里有很多东西是机器人不需要模仿的,比如人的手臂外观、皮肤纹理、手指形状。但视频里也有非常关键的信息,比如手如何接近物体、物体如何被抓起、如何移动、如何放下。
HumanEgo 做的事情,就是把前者尽量去掉,把后者显式提取出来。
第一步:先把“人的手”从视觉里拿掉
人类视频和机器人部署时的图像差异非常大。人类视频里看到的是人的手和手臂;机器人部署时看到的是机械臂和夹爪。如果直接用原始 RGB 训练,模型很容易学到和人类外观相关的特征,而这些特征到了机器人上就失效了。
所以 HumanEgo 先做了一个视觉预处理:
它用 SAM2 分割人手和手臂,再用 LaMa 把手臂区域 inpaint 掉。这样,画面里原本人类手臂占据的位置被“擦除”掉了。
接着,系统会在图像里渲染一个虚拟 gripper,并把被跟踪的物体关键点也画进去。这个 gripper 不是真的机器人图像,而是一种中间视觉提示,用来告诉模型:这里有一个抽象的执行器,它正在和物体发生交互。
这样做的目的不是生成一张完美的机器人图像,而是让视觉输入尽量脱离具体的人类外观。
但论文后面的消融实验会告诉我们:只靠视觉处理还不够。真正起决定作用的是下面这个模块。
核心模块:Interaction-Centric Tokens
HumanEgo 最关键的设计是 Interaction-Centric Tokens,简称 ICT。
以前很多方法会选择两条路线:
一种是 hand-centric,只关注手的轨迹;
另一种是 object-centric,只关注物体的轨迹。
但 HumanEgo 认为,这两种都不够。因为操作技能不是由“手”单独定义的,也不是由“物体”单独定义的,而是由手和物体之间的关系定义的。
比如“拿起杯子”这个动作,真正重要的不是手在空间中的绝对位置,而是手和杯子之间的相对关系:手从哪里靠近杯子、夹爪朝向哪里、什么时候闭合、杯子被抓住后如何跟随手移动。
所以 ICT 会把场景中的每个实体都看成一个 token。这里的实体包括左手、右手和物体。每个 token 里编码的不只是这个实体自己的位姿,还包括左右手相对于这个实体的空间关系,以及抓取状态。
这带来了一个很重要的好处:
它把机器人学习从“看图猜动作”,变成了“基于显式的手-物空间关系生成动作”。
这种表示天然更适合跨 embodiment。因为不同机器人长得不一样,相机也可能不同,但“夹爪相对于杯子的位置”“物体相对于手的移动关系”这些交互几何是可以迁移的。
这也是 HumanEgo 和很多只做视觉 retargeting 或只追踪物体轨迹的方法最大的区别。
Flow Matching Policy:让模型生成一段未来动作
有了 RGB 图像和 ICT tokens 之后,HumanEgo 需要训练一个策略来输出机器人动作。
这里作者没有用普通的行为克隆,也没有直接使用 diffusion policy,而是用了 Flow Matching Policy。
简单理解,Flow Matching 是一种生成模型训练方式。它可以从噪声逐渐生成目标动作轨迹。相比 diffusion policy,它不需要很多 denoising steps,因此推理会更快;同时它仍然能够表达多模态动作。
这对机器人操作很重要。因为同一个任务通常不只有一种正确做法。
比如把面包放到盘子上,可以从左边抓,也可以从右边抓;杯子可以从不同角度拿起;双臂任务里也可能有不同的协调方式。Flow Matching Policy 可以建模这种多种合理动作,而不是只学一个平均轨迹。
HumanEgo 的策略输出的是一段未来动作 chunk,包括双臂的 6-DoF pose 和 gripper 开合状态。也就是说,它不是一步一步只预测一个动作,而是一次生成一段连续动作轨迹。
为什么几分钟数据也够?关键是 dense auxiliary objectives
只用 15 或 30 分钟人类视频训练机器人策略,听起来很夸张。为了让少量数据发挥更大作用,HumanEgo 加了三个辅助训练目标。
第一个是 Object Motion。 模型不仅要预测机器人动作,还要预测物体未来的 6-DoF 轨迹。这会迫使模型理解:如果手这样移动,物体会怎么动。
第二个是 2D Trace。 模型需要预测未来实体在图像平面上的 2D 轨迹。这可以把空间表示和视觉观察联系起来。
第三个是 Latent Consistency。 模型需要预测未来的 ICT 状态。也就是说,它要在 latent space 里理解当前交互状态会如何演化。
这三个目标其实都在做一件事:
让模型学习手-物交互的未来变化。
这有点像给模型加入一个轻量的世界模型。它不仅知道“现在该输出什么动作”,还要知道“这个动作会让物体和场景发生什么变化”。
对于少量数据来说,这一点非常重要。因为每条视频轨迹不再只是提供一个动作标签,而是同时提供了物体运动、视觉轨迹和交互状态变化等多种监督信号。
这也是 HumanEgo 能从分钟级数据里学到稳定策略的关键原因之一。
实验:30 分钟人类视频,平均成功率 92.5%
论文在四个真实机器人任务上评估 HumanEgo。
第一个任务是 Serve Bread:机器人需要抓起一个羊角包,并把它放到盘子上。 第二个任务是 Downstack Cups:机器人需要把嵌套杯子拆开,并重新堆叠。 第三个任务是 Water Flowers:这是一个双臂协作任务,一个手要拿住喷头,另一个手要打开阀门,把水浇到花盆里。 第四个任务是 Adjust Table:机器人需要抓住一个旋钮,并连续旋转三圈。
论文 Fig.3 展示了这四个真实任务。

结果非常直接。
在每个任务只使用 30 分钟人类第一视角视频的情况下,HumanEgo 平均成功率达到 92.5%。如果只用 15 分钟人类视频,平均成功率也有 75.0%。
更重要的是,作者还和一个用 30 分钟机器人遥操作数据训练的 ACT 做了对比。ACT 的平均成功率是 51.2%。也就是说,在相同甚至更少的数据采集时间下,人类第一视角视频反而给出了更高的机器人学习效率。
论文 Fig.4 的柱状图很适合放在这里。它展示了 HumanEgo 和 EgoZero、PointPolicy、Track2Act、ZeroMimic、SPOT、ACT 等方法在四个任务上的表现。可以看到 HumanEgo 不只是整体平均高,而是在每个任务上都很稳定。

尤其是在两个更考验空间理解和双臂协调的任务上,HumanEgo 的优势很明显。
在 Downstack Cups 里,机器人要连续拆杯、抓杯、重新堆叠,早期一点误差都会在后续步骤里放大。HumanEgo 达到 87.5%,而其他方法最高没有超过 45%。
在 Water Flowers 里,机器人必须先用一只手把喷头拉到花盆上方,再用另一只手打开水阀,而且水流还要对准花盆。这个任务不是记住轨迹就能完成的,它要求模型真的理解物体之间的空间关系。HumanEgo 达到 95%,是最佳 baseline 的两倍以上。
这说明 HumanEgo 学到的不是简单的“像素到动作映射”,而是更接近任务本质的手-物交互结构。
人类视频为什么比机器人遥操作更高效?
论文 Fig.5 和 Fig.6 进一步分析了数据效率。
在 Serve Bread 任务上,HumanEgo 只用大约 7 分钟人类示教,就已经能达到 50% 成功率;用 8 分钟人类视频训练时,成功率达到 57.5%,已经超过 ACT 用 30 分钟机器人遥操作数据的 52.5%。

为什么会这样?
论文认为,人类数据本身质量更高。
在 Fig.6 中,作者比较了人类第一视角数据和机器人遥操作数据。人类数据表现出更高的信噪比、更平滑的运动、更少的 idle time,同时还有更丰富的空间分布和轨迹多样性。
这个结果其实很符合直觉。
机器人遥操作经常会有停顿、抖动和纠错,尤其是双臂或精细操作任务里,人类操作员很难一直保持稳定。但人自己完成任务时,动作更自然,也更少出现无意义动作。
所以 HumanEgo 的一个重要启发是:
人类第一视角视频不只是机器人数据的廉价替代品,它在某些任务上可能本身就是更高质量的数据源。
零样本泛化:换机器人、换相机、换环境也能做
HumanEgo 还测试了跨条件泛化能力。
作者在 Serve Bread 和 Downstack Cups 上,把策略部署到不同机器人、不同相机、不同桌子高度、不同视角、不同光照、不同背景、不同物体,以及有 distractors 的环境中,而且不进行任何 retraining 或 fine-tuning。
论文 Fig.7 展示了这些 zero-shot cross-condition 结果。整体成功率基本保持在 85%–91.25% 的范围内。

Fig.8 则展示了真实部署环境,包括换机器人、换相机、换环境等。

这部分结果很关键。
因为如果一个方法只是在同一个实验台、同一个机器人、同一个相机上成功,那它的价值还比较有限。但 HumanEgo 的训练数据来自 Aria glasses,部署时可以换成 RealSense 或 ZED;训练来自人类第一视角,部署时可以换成 Trossen、Franka、UR10 等机器人。
这种泛化能力说明,ICT 确实在一定程度上把操作任务从具体硬件中抽象了出来。
消融实验:真正重要的不是“看起来像机器人”,而是空间交互关系
论文最精彩的部分之一是 Fig.9 的表示消融实验。
作者比较了几种输入方式:
只用原始 Human RGB,成功率只有 7.5%。 加入 keypoints 和 inpainting 后,成功率提升到 20%。 如果直接使用 Robot RGB,也就是视觉上已经完全消除了人和机器人的差异,成功率也只有 32.5%。 但一旦在 Human RGB 上加入 ICT,成功率直接提升到 85%。 完整 HumanEgo 则达到 95%。

这组实验说明了一个非常重要的结论:
仅仅让图像看起来更像机器人,并不能真正解决 human-to-robot transfer。
视觉相似性不是核心。核心是模型是否获得了可以迁移的 3D 手-物交互状态。
也就是说,机器人真正需要的不是“像机器人一样的图片”,而是“我和物体之间是什么空间关系,以及这个关系接下来会怎么变化”。
Fig.10 则分析了三个辅助目标的作用。
不加辅助目标时,15 分钟数据下成功率是 50%。 加入 Object Motion 后提升最大,达到 67.5%。 加入 2D Trace 和 Latent Consistency 也都有提升。 三个辅助目标全部加入后,成功率达到 75%。

这说明 dense auxiliary objectives 并不是锦上添花,而是在少量数据场景下非常重要。它们让模型从每条视频里榨取更多监督信号,学习“动作会如何改变世界”。
局限性:HumanEgo 还不是最终答案
当然,HumanEgo 也有明显限制。
第一,它依赖 Aria glasses 的高质量 stereo hand tracking。如果换成普通单目手部估计,效果会明显下降。这说明目前第一视角人类视频要真正用于机器人学习,传感器质量仍然很关键。
第二,它的物体跟踪还不是完全在线和鲁棒的。遇到快速运动、严重遮挡,尤其是 in-hand manipulation 这类任务时,现有 pipeline 可能会出问题。
第三,整个系统依赖多个现成感知模块,比如检测、分割、关键点跟踪、姿态估计等。任何一个模块失败,都可能影响最后的策略。
第四,目前它的精度大约停留在厘米级。对于更精细的接触操作,比如插孔、装配、非常小物体的精密操作,可能还需要强化学习微调或仿真 refinement。
所以 HumanEgo 更像是一个非常重要的起点,而不是终点。
它证明了“只用人类第一视角视频训练机器人策略”这件事是可行的;但要把它推广到更复杂、更精密、更动态的工业场景,还需要更强的感知前端、更稳定的在线跟踪,以及可能的下游微调机制。
这篇论文给具身智能数据采集的启发
HumanEgo 对具身智能数据采集有一个非常直接的启发:
未来机器人学习的数据,不一定全部来自机器人本体。
过去我们常常默认,机器人要学会任务,就必须让机器人自己采数据,或者通过遥操作采机器人轨迹。但 HumanEgo 说明,人类第一视角视频也可以成为一种非常重要的训练数据来源。
更准确地说,它不是让机器人模仿人类视频里的像素,也不是让机器人复制人的手部动作,而是把人类操作过程抽象成可迁移的交互表示。
这对未来的数据采集设备也很有意义。
如果我们想构建大规模具身智能数据体系,可能不只是做机器人遥操作设备,还可以做面向人类第一视角交互采集的设备:多相机、手部追踪、物体跟踪、时间同步、语义标注、动作意图记录,再配合后端的交互表示提取和策略训练。
也就是说,数据采集设备的价值不只是“控制机器人采轨迹”,而是把真实世界中的人类操作经验转化成机器人可以学习的结构化数据。
这可能会成为具身智能数据瓶颈的一条重要突破口。
总结
HumanEgo 的贡献可以用一句话概括:
它证明了机器人可以不依赖机器人示教数据,而是直接从分钟级人类第一视角视频中学习真实可部署的操作策略。
它真正抓住的关键不是视觉 retargeting,也不是简单的人手轨迹模仿,而是手和物体之间的 interaction geometry。
这也是这篇论文最值得关注的地方。
对于机器人学习来说,未来的数据来源可能不再局限于机器人本体。人类每天都在完成大量操作任务,而第一视角设备正在把这些操作变成可记录、可追踪、可建模的数据。
如果这些数据能被转化成机器人可理解的交互表示,那么机器人学习的成本结构可能会发生很大变化。
HumanEgo 还不是终点,但它给出了一个非常清晰的方向:
让机器人少一点“照着机器人学”,多一点“从人类如何与世界互动中学”。
