最新GMT框架:让人形机器人实现高保真运动!
统计 阅读时间大约4分钟(1291字)

2025-06-19 最新GMT框架:让人形机器人实现高保真运动!

来源:豆包
近日,加州大学圣迭戈分校和西蒙弗雷泽大学的团队提出了一种通用且可扩展的运动跟踪框架GMT。

作者:李鑫   出品:具身智能大讲堂

随着机器人技术的不断发展,人形机器人作为能够模拟人类行为和执行复杂任务的智能体,受到了广泛关注。然而,要使人形机器人在现实世界中执行各种任务,关键在于其能否具备追踪并执行多样化全身运动的能力。

近日,加州大学圣迭戈分校和西蒙弗雷泽大学的团队提出了一种通用且可扩展的运动跟踪框架GMT(General Motion Tracking),通过训练一个统一的策略,使人形机器人能够在现实世界中追踪并执行多样化的运动。

GMT框架概述

GMT框架核心在于两个创新组件:自适应采样策略(Adaptive Sampling)和运动混合专家(Motion Mixture-of-Experts, MoE)架构。

现实世界中的运动数据集往往存在类别不平衡的问题,某些复杂或动态的运动样本较少,导致模型在训练过程中难以充分学习这些运动。自适应采样策略通过随机剪辑长运动序列,并根据跟踪性能动态调整采样概率,有效解决了这一问题。该策略首先将长于10秒的运动剪辑成多个子剪辑,并在训练过程中根据跟踪错误率动态调整采样概率,使得模型能够更多地关注并优化难以学习的运动部分。

为了增强模型的表达能力,GMT引入了运动混合专家架构。该架构由一组专家网络和一个门控网络组成,专家网络负责处理机器人状态和运动目标,输出动作;门控网络则根据输入状态输出各专家网络的概率分布,最终动作由各专家网络输出的加权和决定。该设计使得模型能够更好地捕捉运动多样性,提高跟踪性能。

GMT框架使用AMASS和LAFAN1数据集进行训练,但这些原始数据集中包含了许多机器人无法执行的运动,如爬行、跌倒状态等。因此,研究团队采用了两阶段的数据筛选过程,首先通过规则过滤去除不可行运动,然后基于初步策略的完成率进一步筛选数据,最终得到一个高质量的训练数据集。

为了增强跟踪性能,GMT不仅使用了当前帧的运动目标作为输入,还堆叠了未来多帧的运动目标,并通过卷积编码器将其压缩为潜在向量。这种设计使得模型能够同时捕捉运动的长期趋势和即时跟踪目标,提高了跟踪精度。

实验验证与结果分析

研究团队在仿真环境中对GMT框架进行了广泛实验,使用IsaacGym作为仿真器,并在AMASS测试集和LAFAN1数据集上评估了GMT的性能。实验结果表明,GMT在跟踪性能上显著优于基线方法,特别是在处理复杂和动态运动时表现尤为突出。

为了进一步验证GMT框架中各组件的贡献,研究团队进行了消融实验。实验结果显示,自适应采样策略和运动混合专家架构均对提升跟踪性能起到了关键作用。特别是,在处理更具挑战性的运动时,这两个组件的组合效果尤为显著。

为验证该框架在真实场景下的表现,研究团队将GMT框架部署在Unitree G1人形机器人上,成功实现了包括伸展、踢球、跳舞、高踢腿、武术等多样化运动的跟踪。实验结果表明,GMT框架在现实世界中同样表现出色,验证了其通用性和可扩展性。

除了实现基本的运动跟踪任务外,GMT框架还展现出在更广泛任务类型中的潜在应用价值。例如,研究团队对GMT框架进行了测试,以评估其在跟踪由运动扩散模型(MDM)所生成的运动上的表现。测试结果表明,GMT框架能够精准且高效地执行这些由文本提示所生成的运动,从而充分证明了其在其他多样化下游任务中的有效应用价值。

结语与未来:

GMT框架作为一种通用且可扩展的运动跟踪框架,在人形机器人全身控制中展现出了卓越的性能。通过自适应采样策略和运动混合专家架构的创新设计,GMT有效解决了现实世界中运动数据集类别不平衡和模型表达能力不足的问题。研究人员表示未来会继续优化GMT框架,以提高框架在更复杂和多样化运动跟踪任务中的性能和稳定。

2b760cf5fb00d8486f32e86e8599cdd.jpg

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×