阅读时间大约8分钟(2930字)
作者:李鑫 出品:具身智能大讲堂
在人类生活场景中,边移动边做事是再平常不过的技能——走路时端稳水杯、赶路时手持物品,这些动作对我们而言毫不费力。但对人形机器人来说,这却是极具挑战性的难题。动态行走产生的身体晃动,会通过躯干传递到手臂末端,引发剧烈震荡,导致物体掉落、操作失准。

近日来自佐治亚理工学院与清华大学的研究团队提出了一种名为SEEC的稳定末端执行器控制框架,成功破解了这一核心难题。该框架让Booster T1人形机器人在行走过程中,既能稳稳握住柔性链条、端平装满零食的餐盘,还能流畅完成白板擦拭等操作,性能全面超越传统控制方法。
1►核心痛点:动态行走与精准操作的矛盾
人形机器人要实现“边跑边干活”,核心矛盾在于动态 locomotion(移动)与 manipulation(操作)的耦合干扰。
机器人行走时,腿部与地面的接触冲击、重心的周期性转移,会产生持续的扰动。这些扰动会沿着身体结构放大传递到手臂末端,导致末端执行器(如手部)出现大幅加速度波动。哪怕是轻微的身体晃动,都可能让手部产生数倍于重力的加速度,进而引发物体振荡、滑落,或是破坏操作所需的精准接触力。
传统解决方案存在明显短板:
•基于逆运动学(IK)的方法:完全依赖精确的动力学模型,无法应对摩擦、间隙等现实因素,扰动下易出现剧烈振荡,最终导致任务失败;
•纯学习方法:通过强化学习(RL)端到端训练,但容易过拟合训练场景,面对未见过的行走模式或突发扰动时适应性差,且可能退化为静态握持动作,缺乏通用性;
•联合训练方法:将移动与操作政策绑定训练,模块化程度低,更换行走模式后需重新训练,无法灵活适配不同场景。

研究团队提出的SEEC框架,能够让Booster T1人形机器人在动态移动过程中完成稳定的“移动-操作”复合任务。
SEEC框架的核心创新,在于将模型的精准性与学习的适应性相结合,同时通过模块化设计打破移动与操作的耦合,实现“一次训练,多场景通用”的稳定控制。
2►SEEC框架技术解析:三大核心设计实现稳定控制
SEEC框架的本质,是为机器人上肢打造了一个“抗扰动专属控制器”——通过模型增强的残差学习,让上肢能主动抵消下肢移动带来的扰动,同时保持操作任务的精准性。其核心设计可拆解为三部分:

SEEC框架系统概述
1. 模型增强残差学习:兼顾精准与鲁棒
SEEC没有采用纯模型或纯学习的单一方案,而是构建了“模型提供基础补偿+学习优化残差误差”的混合架构。
首先,通过动力学模型解析计算“扰动补偿扭矩”:基于机器人肢体的质量、惯性、关节状态等参数,精准推导抵消基座移动扰动所需的关节扭矩,从原理上抑制末端执行器的加速度波动。这种模型指导的补偿方式,比单纯在奖励函数中惩罚加速度更具针对性,避免了学习过程中的盲目探索。
其次,通过强化学习训练残差政策:考虑到现实中传感器噪声、电机延迟、摩擦等模型无法完全捕捉的因素,SEEC训练了一个RL残差政策,对模型计算的补偿扭矩进行微调。这种设计既保证了补偿的精准性,又通过学习弥补了模型误差,让控制更具鲁棒性。
2. 扰动生成策略:提前“见识”各种行走扰动
为了让上肢控制器能适应不同的行走模式,SEEC设计了一套全面的扰动生成机制,让模型在训练阶段就能“见识”到各种可能的移动扰动。
研究团队将行走扰动拆解为两类核心成分:一是足底冲击力带来的脉冲式加速度,二是重心转移产生的周期性摇摆加速度。通过随机采样脉冲幅度、振荡频率、相位偏移等参数,生成覆盖真实行走场景的多样化扰动剖面——包括0.64-1.28秒的人类步态周期、±100m/s²的冲击加速度、±10m/s²的摇摆加速度等。
这种训练方式相当于让机器人上肢提前“经历”各种行走状态下的扰动,学习到通用的补偿策略,而非局限于某一种固定的行走模式。这也是SEEC能适配未见过的行走控制器的关键:上肢政策不依赖特定的下肢移动模式,而是直接对扰动本身做出反应。
3. 模块化设计:移动与操作彻底解耦
SEEC框架明确划分了下肢“移动控制器”与上肢“操作控制器”的职责:
•下肢:专注于稳定行走,按照传统鲁棒 locomotion 训练流程,实现踏步、前进、侧向行走、旋转等多种移动模式;

上肢训练奖励机制概述
•上肢:专注于抗扰动操作,通过上述模型增强学习和扰动训练,独立学习如何抵消下肢带来的扰动,同时完成握持、擦拭等任务。
这种模块化设计的优势在于,上肢政策与下肢政策完全解耦。训练完成后,上肢政策可直接适配任何新的行走模式,无需重新联合训练——哪怕是训练时从未见过的行走控制器,也能快速适应并保持稳定操作。
3►训练与部署:高效迁移,零样本适配
SEEC的训练过程在IsaacLab仿真环境中完成,分为上肢和下肢两个独立阶段:
•上肢训练:基于固定基座模型,注入生成的多样化扰动信号,通过PPO算法训练带循环网络(RNN)的演员-评论家模型,奖励函数同时兼顾扭矩匹配、末端跟踪精度、加速度抑制和动作平滑性;
•下肢训练:采用标准的鲁棒行走训练流程,通过随机化上肢目标、末端质量等参数提升通用性。
部署时,只需将训练好的上肢和下肢政策直接迁移到Booster T1人形机器人硬件上,无需额外微调——这种“仿真训练、硬件零样本迁移”的能力,大幅降低了实际应用的门槛。
4►实验验证:仿真与硬件双重达标
研究团队在Booster T1人形机器人(身高1.2米,29个自由度)上进行了全面测试,无论是仿真还是真实硬件场景,SEEC都展现出显著优势。
1. 稳定性:加速度大幅降低
在踏步、前进、侧向行走、旋转四种典型移动场景中,SEEC的末端执行器稳定性全面超越基线方法:

末端执行器稳定性基准测试结果(MuJoCo平台)
•线性加速度:SEEC的平均线性加速度仅为2.26-2.75 m/s²,远低于IK方法的5.28-6.06 m/s²,甚至比纯RL方法低40%以上;
•角加速度:平均角加速度控制在11.4-14.1 rad/s²,较IK方法降低约40%-50%,最大加速度波动也被大幅抑制。
真实硬件测试中,SEEC的平均线性加速度为2.82 m/s²,而IK方法为3.57 m/s²,且SEEC的加速度曲线更平滑,无剧烈波动,证明其在现实环境中的抗扰动能力。
2. 鲁棒性:适配未见过的行走模式
当更换为训练时未接触过的行走控制器时,SEEC的表现远超传统方法:

鲁棒性基准测试结果(MuJoCo平台)
•联合训练(Co-Train)方法:平均线性加速度下降57.45%,角加速度下降60.14%,几乎无法完成稳定操作;
•SEEC:平均线性加速度仅下降34.40%,角加速度下降21.52%,仍能保持稳定的末端控制,成功完成任务。
这种鲁棒性意味着,SEEC训练后的机器人,既能适应缓慢行走,也能应对快速移动,无需为每种行走模式单独优化。
3. 实际任务:多种场景稳定落地
研究团队在真实环境中测试了四项典型任务,SEEC均实现稳定执行:

末端执行器稳定性真实世界评估结果
•链条握持:行走过程中,IK方法导致链条剧烈振荡并最终掉落,而SEEC能将链条振荡幅度压制在极小范围,保持近乎垂直的稳定状态;
•餐盘携带:端着装满零食的餐盘行走时,IK方法因末端振荡导致零食大量洒落,SEEC则能保持餐盘平稳,无任何洒落;
•白板擦拭:通过VR遥操作控制,机器人在持续踏步的同时,能保持擦拭工具与白板的稳定接触力,实现均匀清洁;
•水瓶携带:行走过程中,IK方法导致瓶内液体剧烈晃动并飞溅,SEEC能有效抑制振荡,液体表面仅轻微波动。
这些任务验证了SEEC在不同负载(柔性链条、刚性餐盘、液体)、不同操作类型(握持、接触操作)下的通用性,证明其具备融入现实生活场景的能力。
5►结语与未来:
SEEC框架的突破,不仅在于提升了动态操作的稳定性,更在于为解决人形机器人“移动-操作耦合”问题提供了通用范式。其核心价值体现在:
1.降低实用门槛:零样本仿真到硬件的迁移能力,以及对未见过行走模式的适配性,让机器人无需针对每个场景单独训练,大幅提升了部署效率;
2.拓展应用场景:稳定的动态操作能力,让人形机器人有望在家庭、办公、工业等场景中完成更复杂的任务——比如边走边递物、移动中清洁、动态协作装配等;
3.技术融合示范:模型与学习的混合架构,为解决复杂机器人控制问题提供了新思路,既避免了纯模型的鲁棒性不足,也弥补了纯学习的泛化能力短板。
未来,研究团队计划进一步优化框架:引入更先进的模型预测控制(MPC)处理约束条件,提升操作安全性;融合全身状态估计,实现全局目标跟踪,支持更灵活的协作任务。随着技术的迭代,人形机器人“像人类一样边移动边做事”的场景,正从实验室走向现实。
研究论文:https://arxiv.org/pdf/2509.21231
项目地址:https://zhuoheng0910.github.io/seec-humanoid.github.io/
