南科大、港大、星尘智能联手:FFDC让机器人学会“何时相信想象”,自适应世界模型执行框架破局具身智能
统计 阅读时间大约5分钟(1658字)

7小时前 南科大、港大、星尘智能联手:FFDC让机器人学会“何时相信想象”,自适应世界模型执行框架破局具身智能

来源:具身智能观察室
让具身智能拥有“自知之明”——什么时候该凭直觉,什么时候该三思而后行

作者: Lingshu   出品:具身智能观察室


引言

在具身智能的机器人操作任务中,世界动作模型(World Action Models)通过联合预测未来视觉观测与动作,为长时序决策提供了新范式。然而,现有WAMs的固定执行策略使机器人无法实时验证预测未来与物理现实的动态一致性,导致在接触密集或复杂阶段缺乏响应性,制约了执行效率与鲁棒性。

本文将自适应WAM执行重构为“未来-现实验证”问题,提出未来前向动力学因果注意力(Future Forward Dynamics Causal Attention)验证器,通过联合推理预测动作、视觉动态、真实观测及语言指令,动态评估剩余动作的可信度,实现动作块大小的自适应调整。同时,引入混合时域训练提升长时轨迹覆盖。

实验表明,该方法在保持长时序执行效率的同时,显著增强了机器人对现实-预测偏差的响应能力,在RoboTwin基准与真实场景中实现了鲁棒性与效率的优化权衡。

c7f669da8d1c3263cc72984068c17834.png

论文链接:

https://arxiv.org/abs/2605.06222v2

一、研究现状与动机

f3541b7e128b7100ce45b0557e8c49ac.png

相较于仅建模动作模态的VLA策略,WAMs从视频空间的稠密视觉监督中获取了关于接触交互、运动学演化及时序场景动态的丰富信息。

然而,当前WAMs的未来预测能力主要服务于表征学习或动作生成任务,其预测的未来视觉信息在推理阶段常被弃用或仅作为隐式世界特征,作为“物理世界内在状态期望”的验证潜力尚未被充分挖掘。

在自适应动作执行领域,现有方法多基于动作不确定性、策略熵或扩散损失等策略域信号调整执行长度,但均未利用WAMs的核心特性——模型不仅预测“执行何种动作”,还预测“动作执行后未来场景的演化轨迹”。

这一特性为自验证机制提供了全新可能:在执行过程中,机器人可将真实观测与WAM预测的时序视觉观测进行对比,通过联合推理判断剩余动作序列是否仍与现实物理状态兼容。

二、FFDC-WAM框架

b2cb78851af494dae85053746ace74ae.png

FFDC-WAM框架的核心思想是:将WAM执行从固定开环执行转变为自适应的未来感知控制。该框架通过低频宏观规划(WAM推理)与高频轻量验证(FFDC验证器)的协同运作,实现高效的自适应动作执行。

8a91c38d9f07f9b728e144bfb0a195f0.png

a242179625e4c28f473e96edf979340c.png

f699b44858f642ef7c66b76edbb8c0c0.png

1574b7fa470d4825928941aadffde738.png

三、实验结果

1,仿真环境主实验

在RoboTwin基准的50个操控任务上,FFDC-WAM实现鲁棒性与效率的权衡优化:困难任务成功率显著提升(Rand.hard从54.20%升至76.40%,Clean.hard从57.80%升至76.00%);简单任务完成时间大幅降低(Rand.easy从23.5s降至15.7s,Clean.easy从20.4s降至12.9s);推理次数减少69.10%。其通过未来-现实一致性自适应调整推理频率(困难任务增频,简单任务近LC-64),验证了非盲目减少调用的机制有效性。

2,定性分析

8b87dbc7472be6120a0b728f04601891.png

在简单任务“移动罐子”上,FFDC-WAM仅需单次WAM推理即可完成,而Base-Motus需三次推理;FFDC置信度持续维持高位,表明预测未来与现实的动态一致性良好,允许机器人维持长时序执行无需重规划。在困难任务“悬挂杯子”上,FFDC-WAM在可预测的运输阶段执行长时序动作块,在最终精度关键的悬挂阶段,当预测 - 现实一致性下降时触发频繁重规划;而移除FFDC后,开环执行固定长块会导致误差累积并最终失败。

3,真实世界实验

a2027b26b95e8b70893c2cf9d9fc9eec.png

在Astriobot S1机器人的两个拾取任务中,FFDC-WAM将平均成功率从LC-16的45%提升至80%。这一增益源于FFDC的在线执行状态一致性检测与重规划触发能力:在香蕉和胡萝卜任务中,FFDC-WAM通过执行与重规划交替最终成功,而LC-16因缺乏验证机制持续开环执行,导致误差累积并失败。

82ee42ffe37a9ab897ece769dd98e9f1.png

尽管FFDC-WAM的执行时间(28.1s)和模型调用次数(16次)略高于LC-16(25.6s,14次),但真实世界中的感知噪声、执行偏差及接触不确定性使未来-现实一致性难以维持,FFDC通过额外计算实现在线修正,显著提升了系统鲁棒性。

4,消融实验

840f41681d092fadd7c0d65514c91c0d.png

在困难任务子集上对FFDC的四类输入进行消融分析:移除潜在视觉token(未来视觉预测)导致最大成功率显著下降(从76.4%降至71.6%),表明未来视觉预测是评估推演可靠性的关键信号;移除当前真实观测导致成功率降至72.4%,验证了未来动力学预测与当前真实状态对比的必要性;移除动作token导致成功率降至73.4%,表明动作序列为视觉预测提供了互补的时序信息;移除语义指令导致成功率降至74.8%,说明任务语义对推演有效性评估具有辅助作用。

总结

本文受人类物理交互中未来反馈与实际观测对比的启发,将自适应WAM执行重构为未来-现实验证问题,提出FFDC-WAM。

其核心创新在于引入轻量FFDC验证器,联合建模预测动作、视觉动力学、真实观测与语言指令的时序对齐因果交互,在线检测不可靠的未来执行。

该设计使WAM在预测可靠时持续执行,一致性下降时触发重规划,推动WAM执行从固定时序分块转向可靠性感知控制,提升仿真与真实场景的效率与鲁棒性。

关键突破在于赋予系统在线验证想象未来的能力,而非依赖单一执行长度。局限在于FFDC基于二元监督训练,难以覆盖真实世界执行的多样性;未来需扩展验证器以学习更丰富的失败模式,并纳入更多样真实数据。

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×