王兴兴署名！BIGAI联合宇树提出OmniXtreme框架，单策略通杀空翻、街舞所有高难度动作！

阅读时间大约6分钟（2152字）

2026-03-10 王兴兴署名！BIGAI联合宇树提出OmniXtreme框架，单策略通杀空翻、街舞所有高难度动作！

来源：宇树科技

人形机器人为何难以实现“全能控制”？

作者：李鑫出品：具身智能大讲堂

人形机器人的进化始终受困于一个核心难题：可精准复刻单个高动态动作，却无法实现多动作通用控制。当运动库涵盖空翻、街舞、武术等多样化高难度动作时，传统控制策略的跟踪精度会急剧下降，甚至引发失控。这道困扰行业多年的“通用性壁垒”，近日被北京通用人工智能研究院（BIGAI）与宇树机器人联合实验室提出的OmniXtreme框架成功打破。

在Unitree G1人形机器人的实测中，这一统一控制策略完成157次真实世界测试，覆盖24种高动态动作，整体成功率达91.08%。

其中空翻类动作成功率96.36%，武术动作成功率93.33%，霹雳舞这类接触切换频繁的高难度动作，成功率也达到86.36%。这一突破彻底破解了行业长期存在的“保真度-扩展性权衡”困境。

PART 01

行业死结：人形机器人为何难以实现“全能控制”？

当前人形机器人运动跟踪技术虽有进展，可精准模仿舞蹈、空翻等单一高动态动作，但在多样化运动库面前仍存在明显短板。研究团队分析发现，核心瓶颈集中在仿真训练与硬件落地两个环节，全程制约机器人通用化发展。

仿真学习阶段的瓶颈尤为突出。主流方法多采用结构简单的MLP（多层感知器）作为策略网络，其表征能力有限，无法精准映射不同类型、不同节奏高难度动作的观测与动作关系。更关键的是，传统强化学习联合训练多动作时，会产生严重梯度干扰，导致训练出的策略精度不足，且动作切换时易失控。

硬件落地环节的瓶颈同样关键。仿真环境中，执行器约束建模较为粗糙，仅考虑关节位置与简单力边界，忽略了真实硬件的非线性特性，包括扭矩与速度的关联、速度变化引发的扭矩损耗及再生功率带来的电力问题。这些细节在高动态动作中被放大，导致仿真中表现优异的动作，在真实机器人上易出现跟踪偏差过大、触发硬件保护进而失衡的问题。

高动态场景下，两大瓶颈会形成连锁反应，微小的跟踪误差即可引发执行器连锁失效，最终导致机器人摔倒。这也是此前人形机器人要么局限于少数动作，要么在复杂动作库中性能平庸的核心原因。

PART 02

OmniXtreme 框架提出的两阶段训练，实现通用学习与硬件适配分离

OmniXtreme的核心创新的在于跳出传统“一站式训练”模式，采用“规模化预训练+驱动感知后训练”两阶段框架，将通用运动技能学习与真实硬件适配彻底解耦，分别突破两大核心瓶颈。

第一阶段：基于流匹配的规模化预训练

第一阶段为基于流匹配（Flow Matching）的规模化预训练，核心是实现多高难度动作的通用适配。研究团队未采用传统联合强化学习，而是先为每个参考动作单独训练“专家策略 ”，通过PPO算法实现单一动作的精准复刻，再通过DAgger（数据集聚合）方法，将所有专家经验蒸馏至统一的基础策略中。

该基础策略采用高容量混合架构，先将机器人本体感受、运动指令及历史状态映射为17个特征令牌，经Transformer编码器提取深层特征后，结合动作嵌入与时间正弦编码，输入深度MLP学习速度场。这一设计既规避了多动作训练的梯度干扰，又通过流匹配生成式建模，捕捉不同动作的底层规律，实现多动作通用控制。

第二阶段：面向硬件的驱动感知后训练

第二阶段为面向硬件的驱动感知后训练，重点解决仿真与真实硬件的适配问题。研究团队冻结预训练基础策略，同步训练轻量级残差策略，专门修正真实硬件的执行偏差，核心包含三项针对性设计：

一是激进域随机化，将初始姿态噪声、角速度、外力扰动的随机范围扩大50%，加入地形表面噪声、随机台阶等真实环境干扰，同时将训练终止阈值放松1.5倍，提升模型从大偏差状态中恢复的能力；二是功率安全正则化，通过惩罚膝关节过大负功率（剧烈制动），避免真实电机出现过流保护或热应力；三是精准扭矩-速度约束建模，摒弃简单扭矩裁剪，在仿真中还原真实执行器工作区间，动态计算不同速度下的最大允许扭矩，并加入非线性摩擦项，缩小仿真与真实硬件的差异。

PART 03

仿真碾压基线，真实硬件表现稳定

为验证OmniXtreme性能，研究团队搭建“标准+极端”双层运动库，包含LAFAN1经典基准库与60个高动态、高接触切换、高时间约束的极端动作（组成XtremeMotion数据集），涵盖空翻、手翻、杂技、霹雳舞、武术等类别。同时选取“专家蒸馏MLP”“从零开始的多运动强化学习”两大主流基线方法，在相同模型容量、相同训练数据下开展对比测试。

仿真测试中，OmniXtreme表现显著优于基线方法。在LAFAN1+XtremeMotion混合库中，其MPJPE（平均每关节位置误差）仅为30.93mm，远低于从零开始的强化学习（47.95mm）与专家蒸馏MLP（33.35mm），成功率达98.54%，较两大基线高出3~15个百分点。在XtremeMotion极端动作子集上，其位置误差降至36.17mm，成功率维持98.54%，而基线方法误差飙升、成功率大幅下滑。