毛宁点赞!宇树G1狂飙3m/s跑酷!人形机器人首次实现人类级动态越障!
统计 阅读时间大约10分钟以上(4279字)

4小时前 毛宁点赞!宇树G1狂飙3m/s跑酷!人形机器人首次实现人类级动态越障!

来源:具身智能大讲堂
由华人学者主导的团队研发的PHP框架,让宇树G1人形机器人首次实现了接近人类水平的高速跑酷与动态越障能力。

作者:李鑫    出品:具身智能大讲堂

当四足机器人的跑酷已经成为常规操作,人形机器人的动态越障依然是全球范围内悬而未决的硬核难题。平衡控制难、全身自由度高、动态动作数据稀缺、感知与控制难以闭环、仿真到真机迁移极易失败……每一座都是横亘在研发路上的大山。4月5日,外交部发言人毛宁在X平台发表了一个帖子,2025年人形机器人马拉松比赛,机器人步履蹒跚一次次在跌倒中爬起,而2026年,人形机器人已经学会高动态跑步能力,并肯定中国科技发展速度。这项技术由亚马逊 FAR、加州大学伯克利分校、卡内基梅隆大学、斯坦福大学联合团队研发,核心作者多为中国籍及华人学者,团队中还包括 AI 领域知名大牛 Pieter Abbeel。这套全新框架直接打破僵局。研究团队让身高1.3米的宇树G1人形机器人,仅靠机载深度相机感知,就能以接近人类冲刺的速度完成猫跃、速跃、高墙攀爬、连续越障等专业跑酷动作,全程无需人工干预、无需真机微调,仿真训练完成后直接零样本部署到实体机器人,稳定运行60秒以上复杂障碍通关。

人形机器人跑酷,到底难在哪?

过去十几年,人形机器人的步态控制取得了长足进步,从平坦地面行走升级到斜坡、楼梯、碎石路等复杂地形行走,部分机型已经能实现稳定的双足步行。但只要涉及 高动态、多接触、长时段、强感知 的跑酷动作,现有技术路线几乎全部失效。跑酷对机器人的要求,远远超出普通 locomotion(移动)的范畴。首先是极致的动态性,猫跃、速跃、高墙攀爬等动作,需要全身20余个关节在毫秒级时间内协同发力,瞬间输出大扭矩,完成蹬地、腾空、支撑、落地等连续接触变换,任何一个环节的控制误差都会直接导致摔倒。其次是强环境感知与实时决策,机器人必须在高速移动中快速识别障碍高度、宽度、距离,自主判断该用跨越、攀爬还是扑跃,并且实时调整动作节奏,应对障碍位置突变等突发情况。更棘手的是动作数据的天然稀缺。人类的高动态跑酷动作,捕捉难度极大,需要专业动作捕捉场地、专业跑酷运动员配合,单个技能往往只有几秒的有效数据,且很难覆盖不同接近距离、不同步幅、不同朝向的多样化场景。传统方法直接用零散数据训练,机器人根本无法学会连贯动作,更无法适应真实世界的复杂地形。除此之外,仿真到真机的迁移鸿沟一直是行业痛点。高动态动作对控制精度、传感器噪声、物理参数误差极度敏感,仿真里完美的策略放到真机上,往往因为微小偏差直接失效。多数人形机器人的动态动作,都需要大量真机试错、反复调参,成本极高、周期极长,很难规模化落地。

d3a2407f306cd98969159f49e77d9bac.png

团队在论文中明确指出,现有技术要么只能实现低动态的简单越障,要么依赖特权观测信息无法真机部署,要么无法实现多技能无缝衔接。而跑酷需要的是低鲁棒性保障、类人动作表现力、长时段技能组合、感知驱动决策同时协调,这也是他们研发PHP框架的核心初衷。

PHP框架核心:把游戏动画技术,搬进机器人控制

这支由多位华人学者主导的团队,没有沿用传统的强化学习从头探索的路线,而是另辟蹊径,把游戏动画领域成熟高效的motion matching(动作匹配)技术,首次大规模应用到人形机器人高动态技能组合上,直接解决了动作数据稀缺、过渡动作难设计的核心问题。

64dbf9aabfaefed8dd936b2fa869895e.png

motion matching原本是游戏里用于生成流畅角色动画的技术,核心逻辑是在预设的动作库中,通过特征空间的最近邻搜索,实时选取最匹配当前状态与目标指令的动作片段,自动拼接成连贯流畅的长时段动作。团队把这套逻辑完美迁移到机器人运动生成,打造了一套高效的运动学技能组合 pipeline。

技术实现步骤第一步,他们用OmniRetarget工具,把人类捕捉的跑酷原子动作(行走、奔跑、猫跃、速跃、高墙攀爬、落地缓冲等)重定向到宇树G1的29自由度机身,生成机器人可执行的原子技能库。这些原子动作时长很短,攀爬动作最长十几秒,扑跃动作只有一两秒,单独使用无法完成长时段任务。第二步,通过motion matching把原子动作与行走、奔跑等基础移动动作无缝拼接。系统会实时根据机器人当前姿态、足部状态、根节点速度,以及二维速度指令,计算查询特征,在动作库中找到最优匹配片段,自动完成行走→跑酷技能→行走的完整链路。整个过程无需手动设计过渡动作,不同技能之间通过共享的移动动作 manifold 实现自然衔接,哪怕是完全不同的动作,也能流畅切换。

89d01ec5c5fd0c6e1a4115ef9c181156.png

为了让机器人适应真实世界的多样化场景,团队还做了三层关键优化:一是密集化接近条件,通过随机化障碍前的移动时长、接近距离,让机器人学会在3.9米、4.8米等不同距离启动动作,覆盖不同步幅、不同起腿姿态,解决传统方法只能在固定距离触发动作的缺陷。二是地形随机化,在仿真中随机调整障碍尺寸、角度、位置,让策略不依赖固定障碍形态,提升泛化能力。三是加入干扰物,在轨迹附近放置随机大小的障碍物,避免策略过拟合,增强真机环境的鲁棒性。最终,这套基于motion matching的技能组合方案,把稀疏的几秒原子动作,扩展成海量多样化、长时段、自适应的运动学参考轨迹,既保留了人类动作的流畅性与爆发力,又解决了数据不足的行业痛点,为后续策略训练打下了坚实基础。

老师-学生蒸馏+RL混合训练:零样本真机落地的关键

有了优质的参考轨迹,如何训练出一个仅靠机载深度相机、能在真机上稳定执行高动态动作的策略,是第二个核心难题。团队设计了一套两阶段老师-学生训练框架,先训练高精度专家策略,再通过混合蒸馏生成轻量化学生策略,完美平衡控制精度与真机部署可行性。

c37f7c07f9ef428f0e54f36fc3fdf1ad.png

第一阶段:专家策略训练在仿真环境中,为每一个跑酷技能训练专属的专家策略,采用基于强化学习的动作跟踪方法,让专家策略学习精准跟踪参考轨迹。专家可以使用仿真中的特权观测信息,包括全局根节点位置、速度、高精度地形高度图等,能快速学会高难度动作,比如1.25米高墙攀爬、3m/s速跃等,同时具备误差修正能力,避免小偏差累积导致失败。针对攀爬这类极难收敛的动作,团队采用自适应采样,重点关注失败率高的场景,大幅提升训练效率,让专家策略快速达到高成功率。

第二阶段:学生策略蒸馏这是实现零样本真机迁移的核心。团队没有用纯DAgger模仿学习,而是创新采用DAgger+PPO强化学习混合目标,解决了纯模仿学习无法应对高动态爆发动作的缺陷。纯DAgger模仿学习,只关注每一步的动作跟踪误差,对于攀爬、扑跃需要瞬间大扭矩输出的动作,哪怕只是轻微的力矩不足,也会导致动作失败。比如攀爬高墙时,机器人能学会精准手放置,但因为不敢发力,会卡在引体向上阶段无法登顶。而加入PPO强化学习后,系统会以
任务成功为目标,鼓励机器人输出必要的大扭矩,修正模仿的保守性,让动作更具爆发力。为了让蒸馏更稳定,团队还设计了三阶段课程学习:前期以DAgger为主,避免强化学习噪声破坏模仿效果;逐步提升强化学习权重;放松终止阈值,允许机器人执行镜像动作(比如左腿起腿换成右腿起腿),避免有效动作被误判失败。在感知层面,学生策略完全舍弃特权信息,只依赖机载深度相机+本体感知。团队在仿真中精准模拟真实相机的噪声、延迟、视角偏差,加入深度噪声、观测延迟、外参随机化等,让策略在仿真中就适应真机传感器特性,最终实现零样本sim-to-real迁移——所有训练全在仿真完成,策略直接拷贝到真机,无需任何微调、无需真机试错,开机即可执行跑酷动作。

宇树G1真机实测,3m/s狂飙,1.25米高墙轻松登顶

这套PHP框架的最终效果,全部在宇树G1人形机器人上完成真机验证。G1身高1.3米,29个自由度,是国内量产级高性能人形机器人的代表,机身动力性能、关节扭矩、控制频率都能满足高动态动作需求,也成为全球首个完成复杂跑酷任务的量产人形机器人。

bd315d7064fcf7077d3f2e2b40352f94.png

团队设计了多组极限测试,全面验证机器人的动态能力。

高墙攀爬测试:机器人面对1.25米高的平台,高度达到自身身高的96%,从蹬地、引体向上、摆腿到站稳平台,全程仅用3.63秒,动作节奏、关键节点时序和人类跑酷运动员高度吻合,全程稳定无晃动,没有出现打滑、卡顿、失衡等问题。

高速扑跃测试:猫跃动作0.8秒完成蹬地到落地,前进距离超过2米,峰值速度达到3.41m/s,平均速度2.53m/s,相当于人类全速冲刺,腾空阶段姿态稳定,落地时自动屈膝缓冲,完美吸收冲击,站稳后直接衔接奔跑动作。落地缓冲测试:从1.25米高台直接落下,机器人在落地瞬间主动弯曲下肢关节,快速调整姿态,全程无倾倒、无踉跄,展现出极强的全身平衡与冲击吸收能力。

连续越障测试:在包含低障碍、高墙、平台的复杂场地中,机器人连续运行60秒以上,全程自主感知、自主选择技能、自主切换动作,哪怕研究人员临时把障碍挪动0.5米,机器人也能实时调整接近距离与动作时机,顺利完成越障,展现出强大的闭环自适应能力。

452e30c81ea306aa540c41edf2a9406c.png

团队还做了严格的对比实验,验证PHP框架的优越性。在1.0m/s和2.0m/s两种速度下,面对36cm、58cm、76cm三种高度障碍:传统速度跟踪RL方案,只能通过36cm低障碍,更高障碍成功率为0;无motion匹配的零散动作数据训练,成功率最高只有37%,多数场景低于10%;端到端深度策略,面对高障碍成功率不足20%;PHP框架,所有场景成功率均超过95%,76cm高障碍成功率依然达到95%,接近完美通关。

f20a7723775f99f6ba5ffec32ff2daa6.png

消融实验进一步证明,motion匹配带来的密集动作数据、混合蒸馏中的强化学习、大规模并行训练环境,都是实现高成功率的必要条件。缺少任何一环,机器人都无法完成高难度跑酷动作。

技术突破背后:华人学者主导,全球顶尖团队联合攻关

需要关注的是,这篇论文背后是一支华人学者占绝对主力的顶尖研发团队。共同第一作者Zhen Wu、Xiaoyu Huang、Lujie Yang均为华人,团队核心成员Yuanhang Zhang、Xi Chen、Rocky Duan、Guanya Shi、C. Karen Liu也都是华人学者,分别来自亚马逊FAR、UC Berkeley、CMU、斯坦福大学等机构。亚马逊FAR是全球人形机器人前沿研发的核心团队,专注于高动态运动、人机交互、具身智能;UC Berkeley、CMU、斯坦福则是全球机器人学、强化学习领域的顶尖学府,在运动控制、仿真迁移、动作生成等方向积累深厚。这支跨机构、跨学科的团队,把游戏动画技术、强化学习、具身感知完美融合,走出了一条不同于传统研发的创新路线。

从技术贡献来看,这项工作有三大行业级突破:

首次把motion matching大规模用于人形机器人高动态技能组合,用稀疏原子动作生成海量长时段轨迹,解决高动态动作数据稀缺难题;

创新DAgger+RL混合蒸馏框架,让纯仿真训练的策略零样本落地真机,无需调参、无需试错,大幅降低落地成本;

在量产人形机器人上,首次实现人类级高动态跑酷,速度、越障高度、连贯性全面刷新纪录。

不止跑酷:人形机器人进入动态运动新时代

很多人会问,机器人会跑酷有什么实际价值?其实跑酷只是一个极端测试场景,背后的技术能力,直接决定人形机器人能否走进真实复杂世界。

在应急救援场景中,废墟、坍塌建筑里布满高低障碍、陡坡、高台,机器人需要快速攀爬、跨越、落地,才能抵达救援位置;在工业巡检场景中,厂区内有管道、台阶、设备障碍,机器人需要高速移动、灵活越障,才能高效完成巡检任务;在家庭服务、户外作业等场景,动态越障能力都是机器人实用化的必备条件。

PHP框架的价值,从来不是让机器人表演跑酷,而是提供了一套通用、可扩展、易落地的高动态运动解决方案。motion matching可以轻松扩展新动作,混合蒸馏框架可以适配不同人形机器人平台,零样本迁移可以大幅降低研发成本。

团队在论文中也坦诚了当前的局限:受限于机载相机视场角、测距范围,高速移动时无法提前远距离感知障碍;机器人手部没有强力抓取机构,无法完成抓握栏杆、悬挂等更极限的跑酷动作。但这些都是工程层面可优化的问题,不影响核心技术路线的成立。

从双足行走,到平稳越障,再到如今的高速跑酷,人形机器人的能力边界正在被快速打破。当宇树G1这样的量产机器人,能以3m/s的速度飞檐走壁,能轻松翻越接近自身身高的高墙,能在复杂场地中自主连续运行,意味着人形机器人已经有能力走出实验室,正式迈入高动态、强感知、全自主的时代。

这项由华人学者主导的突破,不仅为人形机器人高动态控制提供了全新技术路线,更让全球看到,在下一代具身智能的竞争中,中国团队与国际顶尖机构并肩前行,正在成为核心技术的定义者与引领者。

论文地址:https://arxiv.org/pdf/2602.15827 

项目地址:https://php-parkour.github.io/ 

9671c9846a27d30d88c1fe6a1d687307.jpg


推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×