阅读时间大约9分钟（3319字）

2026-06-09 SONIC之后，人形动作数据还要继续堆吗？

来源：豆包

清华、银河通用 LIMMT：3%AMASS 反而打过全量训练

作者：Yuanxq 出品：具身智能研究室

最近人形机器人 motion tracking 这条线很热。

SONIC 在讲大规模 motion tracking，HumanoidGPT 在讲 20 亿帧动作数据，HoloMotion-1 在讲野外视频和运动基座。顺着这个趋势看，很容易形成一个直觉：人形机器人动作数据越多越好，动作库越大越接近通用。

但 LIMMT 这篇论文反过来问了一个更扎心的问题：

如果动作数据里混进了大量不物理、重复、太简单的片段，更多数据会不会反而把 tracking policy带偏？

这篇最值得看的结论也很直接：在 AMASS 上，作者筛出来的 不到 3% 数据，就能超过全量数据训练出来的 tracking policy；10% 左右的数据，反而是更好的 sweet spot。

这个结果不一定能直接推广到所有任务，但它提醒我一件事：人形机器人动作数据正在进入“质量筛选”阶段。 后面要拼的不只是数据规模，还要看谁能把真正有训练价值的数据筛出来。

LIMMT 真机 G1 动作跟踪效果

01这篇论文在解决什么问题？

论文信息

论文标题：LIMMT: Less is More for Motion Tracking

机构：Tsinghua University、GalBot、Shanghai Jiao Tong University、Peking University、Shanghai Qi Zhi Institute

项目链接：https://giraffeguan.github.io/limmt/

时间：2026 年 6 月 8 日

LIMMT 的问题定义很清楚：motion tracking 里，什么样的动作数据才真的有价值？

过去我们聊动作数据，经常先看规模。AMASS 有多少小时，Motion-X++ 有多少 clip，HumanoidGPT 用了多少帧，SONIC 扩到了多少数据。

但 physics-based humanoid motion tracking 跟视觉/语言模型不太一样。语言里有噪声文本，大模型可能还能靠规模冲掉一部分；人形机器人这里，如果参考动作本身不物理，policy 会真的被带坏。

比如：

• 人体动作从视频里恢复出来，脚可能在地上滑；

• 身体可能短时间“漂”在空中；

• 关节速度可能超过机器人硬件极限；

• 身体可能穿进地面；

• 很多 clip 只是站立、慢走、重复动作，对训练贡献有限。

这些数据进入 motion tracking 训练之后，已经不只是“有点噪声”。它会影响 RL 早期的优化轨迹，让 policy 朝错误的方向收敛。

所以 LIMMT 的核心判断是：

motion tracking 里，数据质量会决定 policy 一开始被推向哪个优化盆地。

这句话我觉得很关键。因为很多时候训练后期看起来只是指标差一点，本质上可能是前期数据把策略带到了一个不好爬出来的位置。

02LIMMT 的方法：GQS 三阶段筛数据

LIMMT 提出的筛选框架叫 GQS：General Quality Selection。

它做了三件事，从三个维度定义动作数据质量：

• Physics feasibility：物理可行性

• Diversity：动作多样性

• Complexity：动作复杂度

论文的核心流程图如下：

GQS 三阶段动作数据筛选流程

我把它翻译成更直白的话：

第一步，先把明显不物理的数据过滤掉。

第二步，把剩下的动作放到一个语义运动空间里，保证动作类型足够分散。

第三步，在相似动作里优先保留更有训练价值、更高动态的片段。

第一阶段：先过滤“不物理”的动作

这一阶段最像给 motion data 做体检。

论文会把候选动作放进刚体仿真环境里回放，然后计算一个物理分数：

S_phy = 100 - Σ w_i L_i

这里的 L_i 是不同类型的物理问题，主要包括：

• Floating：身体长时间没有物理支撑，像飘起来；

• Ground Penetration：身体或脚穿进地面；

• Velocity Violation：关节速度超过硬件限制；

• Foot Sliding：脚明明接触地面，却持续滑动；

• Self Collision：身体自碰撞；

• Jerk：动作变化过猛。

有意思的是，论文没有把所有问题一刀切。

Floating 和 Foot Sliding 更像毒性噪声，应该重罚。因为这类数据会让 policy 学到错误的接触关系。

但高速度、高 jerk 不一定全是坏事。有些高动态动作本来就更激烈，删太狠反而会把有训练价值的动作删掉。

这点很重要。数据清洗的难点，是别把动作洗成“干净但无聊”，还要区分：

哪些是物理错误，哪些是高动态信息。

第二阶段：用运动嵌入保证多样性

过滤完之后，还会遇到第二个问题：剩下的数据可能高度重复。

动作数据集里往往有大量站立、普通走路、轻微转身。这些动作当然有用，但重复太多之后，继续加数据的边际收益很低。

LIMMT 用 Harmonic Motion Embedding（HME） 给动作建一个语义空间。它不只是看关节角的欧氏距离，而是希望捕捉动作结构和节奏上的相似性。

这样后面做采样时，就能尽量覆盖不同类型的动作，避免被“数量最多的普通走路”淹没。

第三阶段：复杂度加权采样

最后一步是选子集。

普通 farthest point sampling 会倾向于选“分布上离得远”的样本，LIMMT 在这个基础上加入复杂度权重。

它会优先选择：

• 跟已经选过的动作差异大；

• 同时动作本身更复杂、更动态；

• 能给 policy 更强学习信号的片段。

论文里复杂度大致由关节速度和加速度能量来衡量。直觉上也很好理解：站着不动当然稳定，但它给 tracking policy 的训练信息很少；跳跃、转身、舞蹈、单腿动作，更容易把策略的能力边界拉开。

03最反直觉的结果：3% 数据打过全量 AMASS

这篇最出圈的地方，就是下面这张图。

LIMMT 数据比例实验：少量高质量数据超过全量数据

红线是成功率，蓝线是 tracking error。

论文的结果很直接：

• GQS 3% 数据，成功率已经超过全量 raw data baseline；

• GQS 10% 数据，整体效果接近最优；

• 继续增加数据，收益没有线性上升；

• 随机抽 3% 会崩，说明关键不在“少”，而在“筛得对”。

这点不能误读。

这句话不能理解成“以后 motion tracking 只需要 3% 数据”。它真正想说的是：如果数据里有大量低价值或错误片段，全量训练不一定是最优选择。

论文在 AMASS 上的主结果也很明显：

LIMMT 在 AMASS 上的主结果对比

以 Any2Track 为例：

• 原始全量 AMASS：Success Rate 约 94.2%

• GQS 3%：Success Rate 约 95.6%

• GQS 10%：Success Rate 约 95.9%

TWIST2 上也类似：

• 原始全量数据：Success Rate 约 82.5%

• GQS 10%：Success Rate 约 86.8%

更狠的是随机 3%。

随机少量采样效果非常差，说明这篇论文的重点并非“少数据训练”。它真正的贡献是：

把少量数据筛成高信息密度数据。

04为什么“更多数据”会伤害 tracking？

我觉得这里可以讲得更直白一点。

人形 motion tracking 的训练目标，是让机器人尽量跟参考动作，同时还要满足动力学约束。

如果参考动作本身质量很差，policy 会同时接收到两种冲突信号：

• 奖励函数让它追参考动作；

• 物理世界又告诉它这个动作不可执行。

久而久之，policy 可能学到一些很奇怪的折中：姿态看起来在追，但接触关系不对；或者为了追不可行参考，把身体推到容易失稳的位置。

这和普通监督学习里的 noisy label 有点像，但机器人这里更麻烦。因为错误标签不只是让预测值偏一点，它会改变整个闭环系统的动作分布。

这也是为什么 LIMMT 一直强调 early optimization trajectory。

好的数据会影响最终指标，也会在训练早期就把策略推到更稳定、更有物理意义的方向。

换句话说：

坏动作数据不是“没贡献”，它可能有负贡献。

这对现在的人形机器人数据路线很有启发。

我们现在看到越来越多大规模动作数据来源：MoCap、视频恢复、遥操作、合成视频、世界模型 rollout、甚至自动搜索出来的轨迹。数据入口越多，质量问题越会被放大。

后面真正有价值的工作，可能不只需要把数据池做大，还要建立一套能长期运行的数据筛选、评分和修复机制。

05真机结果：10% GQS 数据上了 Unitree G1

论文不只在仿真里做实验，也把 GQS 选出来的数据训练出的 tracker 部署到了 Unitree G1。

真机结果里，作者展示了中国功夫、舞蹈、单腿跳、抱箱子等动作：

LIMMT 在 Unitree G1 上的真实动作跟踪结果

定量结果也能看出趋势：

LIMMT 在 Unitree G1 上的真机跟踪结果表

平均来看：

• Full-data policy：SR 约 0.775

• GQS 10% policy：SR 约 0.850

• MPJPE 也从 0.1528 降到 0.1287

也就是说，在真机上，用 10% 筛选数据训练出来的策略，反而比全量数据更稳。

这对 Sim2Real 很有意义。因为真机部署最怕的，通常不是仿真指标差一点，而是策略在真实机器人上遇到未见扰动、接触误差、执行器限制时表现崩掉。

GQS 的筛选逻辑刚好会偏向两类数据：

• 去掉会造成 sim-to-real 偏移的明显不物理动作；

• 保留更能激发机器人能力边界的高动态动作。

这也是它能在真机上占便宜的原因。

06我怎么看这篇：它像 motion tracking 里的数据工程课

LIMMT 没有提出新的大模型，也没有试图做一个万能 controller。

它更像一篇数据工程论文。

但对现在的人形机器人来说，这类论文会越来越重要。因为大家已经开始意识到：模型结构、奖励函数、训练平台之外，数据本身也会成为核心瓶颈。

过去我们聊 motion tracking，常见问题是：

• tracking policy 怎么设计？

• reward 怎么写？

• teacher-student 怎么蒸馏？

• sim2real 怎么做？

• 高动态动作怎么训？

LIMMT 把问题往前推了一步：

在训练之前，先问这些动作到底值不值得被训练。

这个问题会影响很多路线。

比如 SONIC 这种大规模 motion tracking，最后一定会遇到数据质量问题。HumanoidGPT 这种超大规模动作数据，也需要判断哪些片段真正能提升 zero-shot tracking。BFM 这类行为基座路线，如果 latent space 里混入大量不物理动作，潜空间也可能被污染。

所以我觉得 LIMMT 的意义不只是“3% AMASS 打过全量 AMASS”。更重要的是，它提供了一个可复用的判断框架：

• 先看动作是不是物理可行；

• 再看动作之间有没有多样性；

• 最后看动作有没有足够动态复杂度。

这三个维度很朴素，但也很实用。

07也别把这篇神化

当然，这篇也不能被过度解读。

第一，它的结论主要建立在 motion tracking 场景下。对于更强交互、更复杂物体操作、更高层 VLA 数据，最优筛选标准可能不一样。

第二，“3%”不能当成通用常数。不同数据集、不同机器人、不同 tracker，最优比例都会变。论文后面也提出了 Adaptive Ratio Selection，说明作者自己也不想把 3% 写死。

第三，它现在主要还是规则式质量评估。未来更可能出现偏好模型、自动修复模型，甚至让世界模型参与判断动作数据是否物理可信。

但这些都不影响它的价值。

因为它抓住了一个越来越重要的趋势：