阅读时间大约6分钟(2152字)
作者:李鑫 出品:具身智能大讲堂
人形机器人的进化始终受困于一个核心难题:可精准复刻单个高动态动作,却无法实现多动作通用控制。当运动库涵盖空翻、街舞、武术等多样化高难度动作时,传统控制策略的跟踪精度会急剧下降,甚至引发失控。这道困扰行业多年的“通用性壁垒”, 近日 被北京通用人工智能研究院(BIGAI)与宇树机器人联合实验室提出的OmniXtreme框架成功打破。

在Unitree G1人形机器人的实测中,这一统一控制 策略 完成157次真实世界测试,覆盖24种高动态动作,整体成功率达91.08%。

其中空翻类动作成功率96.36%,武术动作成功率93.33%,霹雳舞这类接触切换频繁的高难度动作,成功率也达到86.36%。这一突破彻底破解了行业长期存在的“保真度-扩展性权衡”困境。

PART 01
行业死结:人形机器人为何难以实现“全能控制”?
当前人形机器人运动跟踪技术虽有进展,可精准模仿舞蹈、空翻等单一高动态动作,但在多样化运动库面前仍存在明显短板。研究团队分析发现,核心瓶颈集中在仿真训练与硬件落地两个环节,全程制约机器人通用化发展。
仿真学习阶段的瓶颈尤为突出。主流方法多采用结构简单的MLP(多层感知器)作为策略网络,其表征能力有限,无法精准映射不同类型、不同节奏高难度动作的观测与动作关系。更关键的是,传统强化学习联合训练多动作时,会产生严重梯度干扰,导致训练出的策略精度不足,且动作切换时易失控。
硬件落地环节的瓶颈同样关键。仿真环境中,执行器约束建模较为粗糙,仅考虑关节位置与简单力边界,忽略了真实硬件的非线性特性,包括扭矩与速度的关联、速度变化引发的扭矩损耗及再生功率带来的电力问题。这些细节在高动态动作中被放大,导致仿真中表现优异的动作,在真实机器人上易出现跟踪偏差过大、触发硬件保护进而失衡的问题。
高动态场景下,两大瓶颈会形成连锁反应,微小的跟踪误差即可引发执行器连锁失效,最终导致机器人摔倒。这也是此前人形机器人要么局限于少数动作,要么在复杂动作库中性能平庸的核心原因。
PART 02
OmniXtreme 框架提出的两阶段训练,实现通用学习与硬件适配分离
OmniXtreme的核心创新的在于跳出传统“一站式训练”模式,采用“规模化预训练+驱动感知后训练”两阶段框架,将通用运动技能学习与真实硬件适配彻底解耦,分别突破两大核心瓶颈。

第一阶段:基于流匹配的规模化预训练
第一阶段为基于流匹配(Flow Matching)的规模化预训练,核心是实现多高难度动作的通用适配。研究团队未采用传统联合强化学习,而是先为每个参考动作单独训练“专家 策略 ”,通过PPO算法实现单一动作的精准复刻,再通过DAgger(数据集聚合)方法,将所有专家经验蒸馏至统一的基础 策略 中。
该基础 策略 采用高容量混合架构,先将机器人本体感受、运动指令及历史状态映射为17个特征令牌,经Transformer编码器提取深层特征后,结合动作嵌入与时间正弦编码,输入深度MLP学习速度场。这一设计既规避了多动作训练的梯度干扰,又通过流匹配生成式建模,捕捉不同动作的底层规律,实现多动作通用控制。
第二阶段:面向硬件的驱动感知后训练
第二阶段为面向硬件的驱动感知后训练,重点解决仿真与真实硬件的适配问题。研究团队冻结预训练基础 策略 ,同步训练轻量级残差 策略 ,专门修正真实硬件的执行偏差,核心包含三项针对性设计:
一是激进域随机化,将初始姿态噪声、角速度、外力扰动的随机范围扩大50%,加入地形表面噪声、随机台阶等真实环境干扰,同时将训练终止阈值放松1.5倍,提升模型从大偏差状态中恢复的能力;二是功率安全正则化,通过惩罚膝关节过大负功率(剧烈制动),避免真实电机出现过流保护或热应力;三是精准扭矩-速度约束建模,摒弃简单扭矩裁剪,在仿真中还原真实执行器工作区间,动态计算不同速度下的最大允许扭矩,并加入非线性摩擦项,缩小仿真与真实硬件的差异。
PART 03
仿真碾压基线,真实硬件表现稳定
为验证OmniXtreme性能,研究团队搭建“标准+极端”双层运动库,包含LAFAN1经典基准库与60个高动态、高接触切换、高时间约束的极端动作(组成XtremeMotion数据集),涵盖空翻、手翻、杂技、霹雳舞、武术等类别。同时选取“专家蒸馏MLP”“从零开始的多运动强化学习”两大主流基线方法,在相同模型容量、相同训练数据下开展对比测试。

仿真测试中,OmniXtreme表现显著优于基线方法。在LAFAN1+XtremeMotion混合库中,其MPJPE(平均每关节位置误差)仅为30.93mm,远低于从零开始的强化学习(47.95mm)与专家蒸馏MLP(33.35mm),成功率达98.54%,较两大基线高出3~15个百分点。在XtremeMotion极端动作子集上,其位置误差降至36.17mm,成功率维持98.54%,而基线方法误差飙升、成功率大幅下滑。

真实硬件测试中,OmniXtreme表现同样亮眼。在Unitree G1上,7种空翻动作经55次测试仅失败2次,5种手翻动作35次测试成功31次,杂技动作15次测试成功12次。这些动作包含角速度达14rad/s的高速运动、频繁空中切换及复杂支撑转换,均为传统控制框架难以实现的高难度场景。

值得注意的是,整个推理流程完全在机器人机载NVIDIA Jetson Orin NX上运行,经TensorRT加速后,端到端延迟仅约10ms,支持50Hz稳定控制频率,无需依赖外部计算设备,实现机载独立运行。
PART 04
开源赋能,推动人形机器人全面通用化
OmniXtreme的突破不仅打破“保真度-扩展性”权衡,更重新定义了人形机器人的能力边界。与传统MLP 策略 不同,其通过流匹配生成式建模,表征能力随模型容量提升持续增强,不会出现性能饱和问题。
规模化测试显示,当运动库从10个扩展至50个极端动作时,从零开始的强化学习策略成功率从100%降至73.9%,而OmniXtreme仍稳定保持93.3%的高成功率,为通用人形机器人发展提供了核心支撑。
研究团队表示,目前仍存在少量失败案例,主要集中在极端动作的高冲击着陆阶段,过大瞬时制动负载会触发硬件保护机制。未来将进一步完善执行器与动力系统的极限特性建模,纳入扭矩、速度、电流、功率流及电池电压动态的耦合效应。目前OmniXtreme框架已开源,可为行业提供通用技术支撑。
未来,高动态、高保真、可扩展的控制能力,将成为人形机器人的核心竞争力,推动其从实验室走向工业、服务等实际应用场景。
论文地址:https://arxiv.org/pdf/2602.11758
项目地址 :https://extreme-humanoid.github.io/
