SONIC之后,人形动作数据还要继续堆吗?
统计 阅读时间大约9分钟(3319字)

3小时前 SONIC之后,人形动作数据还要继续堆吗?

来源:豆包
清华、银河通用 LIMMT:3%AMASS 反而打过全量训练

作者:Yuanxq     出品:具身智能研究室

最近人形机器人 motion tracking 这条线很热。

SONIC 在讲大规模 motion tracking,HumanoidGPT 在讲 20 亿帧动作数据,HoloMotion-1 在讲野外视频和运动基座。顺着这个趋势看,很容易形成一个直觉:人形机器人动作数据越多越好,动作库越大越接近通用。

但 LIMMT 这篇论文反过来问了一个更扎心的问题:

如果动作数据里混进了大量不物理、重复、太简单的片段,更多数据会不会反而把 tracking policy带偏?

这篇最值得看的结论也很直接:在 AMASS 上,作者筛出来的 不到 3% 数据,就能超过全量数据训练出来的 tracking policy;10% 左右的数据,反而是更好的 sweet spot。

这个结果不一定能直接推广到所有任务,但它提醒我一件事:人形机器人动作数据正在进入“质量筛选”阶段。 后面要拼的不只是数据规模,还要看谁能把真正有训练价值的数据筛出来。

9fdde1ceb4513f0ed608895110532264.jpg

LIMMT 真机 G1 动作跟踪效果

01这篇论文在解决什么问题?

论文信息

论文标题:LIMMT: Less is More for Motion Tracking

机构:Tsinghua University、GalBot、Shanghai Jiao Tong University、Peking University、Shanghai Qi Zhi Institute

项目链接:https://giraffeguan.github.io/limmt/

时间:2026 年 6 月 8 日

LIMMT 的问题定义很清楚:motion tracking 里,什么样的动作数据才真的有价值?

过去我们聊动作数据,经常先看规模。AMASS 有多少小时,Motion-X++ 有多少 clip,HumanoidGPT 用了多少帧,SONIC 扩到了多少数据。

但 physics-based humanoid motion tracking 跟视觉/语言模型不太一样。语言里有噪声文本,大模型可能还能靠规模冲掉一部分;人形机器人这里,如果参考动作本身不物理,policy 会真的被带坏。

比如:

• 人体动作从视频里恢复出来,脚可能在地上滑;

• 身体可能短时间“漂”在空中;

• 关节速度可能超过机器人硬件极限;

• 身体可能穿进地面;

• 很多 clip 只是站立、慢走、重复动作,对训练贡献有限。

这些数据进入 motion tracking 训练之后,已经不只是“有点噪声”。它会影响 RL 早期的优化轨迹,让 policy 朝错误的方向收敛。

所以 LIMMT 的核心判断是:

motion tracking 里,数据质量会决定 policy 一开始被推向哪个优化盆地。

这句话我觉得很关键。因为很多时候训练后期看起来只是指标差一点,本质上可能是前期数据把策略带到了一个不好爬出来的位置。

02LIMMT 的方法:GQS 三阶段筛数据

LIMMT 提出的筛选框架叫 GQS:General Quality Selection。

它做了三件事,从三个维度定义动作数据质量:

• Physics feasibility:物理可行性

• Diversity:动作多样性

• Complexity:动作复杂度

论文的核心流程图如下:

affb92d290d4333962512e4e1ffc1f8f.jpg

GQS 三阶段动作数据筛选流程

我把它翻译成更直白的话:

第一步,先把明显不物理的数据过滤掉。

第二步,把剩下的动作放到一个语义运动空间里,保证动作类型足够分散。

第三步,在相似动作里优先保留更有训练价值、更高动态的片段。

第一阶段:先过滤“不物理”的动作

这一阶段最像给 motion data 做体检。

论文会把候选动作放进刚体仿真环境里回放,然后计算一个物理分数:

S_phy = 100 - Σ w_i L_i

这里的 L_i 是不同类型的物理问题,主要包括:

Floating:身体长时间没有物理支撑,像飘起来;

Ground Penetration:身体或脚穿进地面;

Velocity Violation:关节速度超过硬件限制;

Foot Sliding:脚明明接触地面,却持续滑动;

Self Collision:身体自碰撞;

Jerk:动作变化过猛。

有意思的是,论文没有把所有问题一刀切。

Floating 和 Foot Sliding 更像毒性噪声,应该重罚。 因为这类数据会让 policy 学到错误的接触关系。

但高速度、高 jerk 不一定全是坏事。有些高动态动作本来就更激烈,删太狠反而会把有训练价值的动作删掉。

这点很重要。数据清洗的难点,是别把动作洗成“干净但无聊”,还要区分:

哪些是物理错误,哪些是高动态信息。

第二阶段:用运动嵌入保证多样性

过滤完之后,还会遇到第二个问题:剩下的数据可能高度重复。

动作数据集里往往有大量站立、普通走路、轻微转身。这些动作当然有用,但重复太多之后,继续加数据的边际收益很低。

LIMMT 用 Harmonic Motion Embedding(HME) 给动作建一个语义空间。它不只是看关节角的欧氏距离,而是希望捕捉动作结构和节奏上的相似性。

这样后面做采样时,就能尽量覆盖不同类型的动作,避免被“数量最多的普通走路”淹没。

第三阶段:复杂度加权采样

最后一步是选子集。

普通 farthest point sampling 会倾向于选“分布上离得远”的样本,LIMMT 在这个基础上加入复杂度权重。

它会优先选择:

• 跟已经选过的动作差异大;

• 同时动作本身更复杂、更动态;

• 能给 policy 更强学习信号的片段。

论文里复杂度大致由关节速度和加速度能量来衡量。直觉上也很好理解:站着不动当然稳定,但它给 tracking policy 的训练信息很少;跳跃、转身、舞蹈、单腿动作,更容易把策略的能力边界拉开。

03最反直觉的结果:3% 数据打过全量 AMASS

这篇最出圈的地方,就是下面这张图。

0a2d765d98cc05d2421478e4b61b1492.jpg

LIMMT 数据比例实验:少量高质量数据超过全量数据

红线是成功率,蓝线是 tracking error。

论文的结果很直接:

GQS 3% 数据,成功率已经超过全量 raw data baseline;

GQS 10% 数据,整体效果接近最优;

• 继续增加数据,收益没有线性上升;

• 随机抽 3% 会崩,说明关键不在“少”,而在“筛得对”。

这点不能误读。

这句话不能理解成“以后 motion tracking 只需要 3% 数据”。它真正想说的是:如果数据里有大量低价值或错误片段,全量训练不一定是最优选择

论文在 AMASS 上的主结果也很明显:

168375817e18b0b51d6141aebcbb2010.jpg

LIMMT 在 AMASS 上的主结果对比

以 Any2Track 为例:

• 原始全量 AMASS:Success Rate 约 94.2%

• GQS 3%:Success Rate 约 95.6%

• GQS 10%:Success Rate 约 95.9%

TWIST2 上也类似:

• 原始全量数据:Success Rate 约 82.5%

• GQS 10%:Success Rate 约 86.8%

更狠的是随机 3%。

随机少量采样效果非常差,说明这篇论文的重点并非“少数据训练”。它真正的贡献是:

把少量数据筛成高信息密度数据。

04为什么“更多数据”会伤害 tracking?

我觉得这里可以讲得更直白一点。

人形 motion tracking 的训练目标,是让机器人尽量跟参考动作,同时还要满足动力学约束。

如果参考动作本身质量很差,policy 会同时接收到两种冲突信号:

• 奖励函数让它追参考动作;

• 物理世界又告诉它这个动作不可执行。

久而久之,policy 可能学到一些很奇怪的折中:姿态看起来在追,但接触关系不对;或者为了追不可行参考,把身体推到容易失稳的位置。

这和普通监督学习里的 noisy label 有点像,但机器人这里更麻烦。因为错误标签不只是让预测值偏一点,它会改变整个闭环系统的动作分布。

这也是为什么 LIMMT 一直强调 early optimization trajectory。

好的数据会影响最终指标,也会在训练早期就把策略推到更稳定、更有物理意义的方向。

换句话说:

坏动作数据不是“没贡献”,它可能有负贡献。

这对现在的人形机器人数据路线很有启发。

我们现在看到越来越多大规模动作数据来源:MoCap、视频恢复、遥操作、合成视频、世界模型 rollout、甚至自动搜索出来的轨迹。数据入口越多,质量问题越会被放大。

后面真正有价值的工作,可能不只需要把数据池做大,还要建立一套能长期运行的数据筛选、评分和修复机制。

05真机结果:10% GQS 数据上了 Unitree G1

论文不只在仿真里做实验,也把 GQS 选出来的数据训练出的 tracker 部署到了 Unitree G1。

真机结果里,作者展示了中国功夫、舞蹈、单腿跳、抱箱子等动作:

5952b6f01bb50bdd0bed9aea82169732.jpg

LIMMT 在 Unitree G1 上的真实动作跟踪结果

定量结果也能看出趋势:

LIMMT 在 Unitree G1 上的真机跟踪结果表

abfed754d676f4ec016a3d98e72b1651.jpg

平均来看:

• Full-data policy:SR 约 0.775

• GQS 10% policy:SR 约 0.850

• MPJPE 也从 0.1528 降到 0.1287

也就是说,在真机上,用 10% 筛选数据训练出来的策略,反而比全量数据更稳。

这对 Sim2Real 很有意义。因为真机部署最怕的,通常不是仿真指标差一点,而是策略在真实机器人上遇到未见扰动、接触误差、执行器限制时表现崩掉。

GQS 的筛选逻辑刚好会偏向两类数据:

• 去掉会造成 sim-to-real 偏移的明显不物理动作;

• 保留更能激发机器人能力边界的高动态动作。

这也是它能在真机上占便宜的原因。

06我怎么看这篇:它像 motion tracking 里的数据工程课

LIMMT 没有提出新的大模型,也没有试图做一个万能 controller。

它更像一篇数据工程论文。

但对现在的人形机器人来说,这类论文会越来越重要。因为大家已经开始意识到:模型结构、奖励函数、训练平台之外,数据本身也会成为核心瓶颈。

过去我们聊 motion tracking,常见问题是:

• tracking policy 怎么设计?

• reward 怎么写?

• teacher-student 怎么蒸馏?

• sim2real 怎么做?

• 高动态动作怎么训?

LIMMT 把问题往前推了一步:

在训练之前,先问这些动作到底值不值得被训练。

这个问题会影响很多路线。

比如 SONIC 这种大规模 motion tracking,最后一定会遇到数据质量问题。HumanoidGPT 这种超大规模动作数据,也需要判断哪些片段真正能提升 zero-shot tracking。BFM 这类行为基座路线,如果 latent space 里混入大量不物理动作,潜空间也可能被污染。

所以我觉得 LIMMT 的意义不只是“3% AMASS 打过全量 AMASS”。更重要的是,它提供了一个可复用的判断框架:

• 先看动作是不是物理可行;

• 再看动作之间有没有多样性;

• 最后看动作有没有足够动态复杂度。

这三个维度很朴素,但也很实用。

07也别把这篇神化

当然,这篇也不能被过度解读。

第一,它的结论主要建立在 motion tracking 场景下。对于更强交互、更复杂物体操作、更高层 VLA 数据,最优筛选标准可能不一样。

第二,“3%”不能当成通用常数。不同数据集、不同机器人、不同 tracker,最优比例都会变。论文后面也提出了 Adaptive Ratio Selection,说明作者自己也不想把 3% 写死。

第三,它现在主要还是规则式质量评估。未来更可能出现偏好模型、自动修复模型,甚至让世界模型参与判断动作数据是否物理可信。

但这些都不影响它的价值。

因为它抓住了一个越来越重要的趋势:

人形机器人进入大数据阶段之后,下一步一定是高质量数据阶段。

08写在最后

这篇 LIMMT 我觉得很适合单独写,是因为它把一个常被默认成立的前提拿出来重新检查:

动作数据越多,motion tracking 就一定越好吗?

它的回答很克制,也很有冲击力:不一定。

在人形机器人上,动作数据不是堆进来就完事。你要知道哪些动作不物理,哪些动作重复,哪些动作虽然少但非常有训练价值。

如果未来人形机器人真的要靠大规模动作数据、野外视频、遥操作数据和生成数据来扩展能力,那么 LIMMT 这类工作会变成基础设施的一部分。

很多论文会追求更大的模型,但 LIMMT 把注意力拉回了训练入口。

有时候,真正影响训练结果的,是你终于开始认真问:

这条数据,真的值得机器人学吗?

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×