机器人不想在真实世界里反复试错,于是它开始在“想象中训练”自己
统计 阅读时间大约10分钟以上(4345字)

2026-06-01 机器人不想在真实世界里反复试错,于是它开始在“想象中训练”自己

来源:豆包
让机器人不再完全依赖真实世界试错,而是通过组合式世界模型在“想象空间”中进行强化学习,从而实现策略自我提升

出品:具身释界

如果让一个机器人学习整理积木、收拾背包、关闭盒子,最直接的方法是什么?

答案似乎很简单:让机器人不断尝试,成功了就奖励,失败了就调整。

这就是强化学习的基本思路。

但问题是,真实世界里的机器人试错,实在太贵了。

机器人每执行一次任务,都需要真实机械臂运动、物体摆放、任务重置,有时候还需要人工在旁边监控。比如机器人要学会从传送带上抓积木,如果抓歪了,积木掉了,场景就要重新整理;机器人要学会把衣服塞进背包,如果背包被扯歪了,也需要人工恢复。整个过程慢、贵,而且很难大规模并行。

这篇论文 RISE: Self-Improving Robot Policy with Compositional World Model 关注的就是这个问题:

能不能不让机器人在真实世界里反复试错,而是让它先在一个学出来的“想象世界”里练习,然后再把练习经验用来提升真实机器人策略?

这听起来有点像人类学习。

我们并不是每次都要真的动手试错。很多时候,我们会先在脑子里想象:“如果我这样拿,会不会掉?”“如果我这样拉拉链,会不会卡住?”

RISE 想做的事情,就是让机器人也拥有类似的“脑内模拟”能力。


一、为什么真实世界 RL 很难?

0619ead519a328996d971ee18a7ec55d.png

Figure 1 是文章开头的总览图。它左边展示的是传统真实世界强化学习,右边展示的是 RISE 的核心思路。

传统物理世界中的 RL 有几个很明显的问题:

第一,真实机器人交互是串行的。

不像仿真环境里可以同时开几百个环境并行训练,真实机械臂通常只能一次一次执行任务。

第二,真实环境需要人工重置。

抓积木失败了,要把积木重新放好;背包没拉上,要重新整理;盒子没关好,也要重新摆放。这些过程非常消耗人力。

第三,真实试错有安全和硬件风险。

机器人动作不稳定时,可能撞到物体、损坏环境,甚至损坏机械臂本身。

所以,虽然强化学习理论上可以让机器人通过成功和失败不断变强,但在真实机器人场景中,它很难像游戏或仿真那样大规模运行。

RISE 的解决方案是:

把强化学习的试错过程,从真实世界搬到 world model 里面。

也就是说,真实机器人不需要真的执行每一个候选动作。模型可以先在“想象空间”里预测:如果机器人执行这个动作,未来会发生什么;然后再判断这个未来是好还是坏。最后,机器人策略只学习那些更有价值的动作。


二、RISE 的核心:组合式世界模型

16ff29839d03963e99c6a751039948a8.png

RISE 最核心的模块叫 Compositional World Model,也就是“组合式世界模型”。

为什么叫组合式?

因为它不是用一个模型包办所有事情,而是把世界模型拆成两个部分:

一个是 Dynamics Model。 它负责预测未来。简单来说,就是回答:

“如果机器人现在执行这段动作,接下来画面会变成什么样?”

另一个是 Progress Value Model。 它负责评价未来。也就是说,它要判断:

这个未来状态是不是离任务成功更近了?”

这两个模块合起来,就形成了一个机器人可以交互的“想象环境”。

机器人策略先提出一个 action chunk,也就是一小段连续动作。Dynamics Model 根据当前多视角图像和这段动作,生成未来几帧多视角图像。然后 Progress Value Model 对这些未来图像打分,判断这段动作是否有助于完成任务。

这样一来,RISE 不需要真的让机器人去执行每个动作,也能得到类似强化学习里的反馈信号。


三、Dynamics Model:让机器人想象“执行动作后的未来”

e0c827668d9a75fb1a3e64301c4d2272.png

Figure 3 展示了 RISE 的想象能力。

这张图可以分成三部分来理解。

第一部分是 Diverse Future Imagination。 给定同一个初始状态,不同的候选动作会导致不同的未来。比如机器人可以把物体往不同方向移动,未来画面也会随之变化。这说明 Dynamics Model 不只是生成一个“看起来合理”的视频,而是能根据动作变化生成不同结果。

第二部分是 Failure Case Simulation。 这一点很关键。RISE 不只会想象成功情况,也会想象失败情况。比如拉链拉过头、背包提起来失败等。对于强化学习来说,失败样本同样重要,因为机器人不仅要知道什么动作好,也要知道什么动作会导致失败。

第三部分是 High-Fidelity Generation。 论文还展示了模型预测结果和真实执行结果的对比。可以看到,RISE 生成的未来画面在动作趋势和物体变化上比较接近真实情况。

这部分可以这样理解:

RISE 的 Dynamics Model 像是机器人脑中的“物理直觉”。它不需要真的执行动作,也能大致想象这个动作会带来什么后果。

当然,这个世界模型不是完美物理仿真。它本质上还是一个视频生成模型。但只要它在短时间范围内足够准确,就可以为策略学习提供有价值的训练信号。


四、Value Model:判断这个未来到底好不好

只会想象未来还不够。

机器人还需要知道:这个未来是好是坏。

比如在背包任务中,机器人可能已经把衣服塞进去了,但还没拉上拉链。这个状态虽然还不是最终成功,但它明显比一开始更接近成功。

如果只用最终成功或失败作为奖励,机器人会很难学习长任务。因为很多中间步骤都没有明确反馈。

所以 RISE 设计了 Progress Value Model,让模型给每个中间状态估计一个“任务进度”。

这个 Value Model 的训练用了两类信号。

第一类是 progress estimate。 也就是根据一个任务执行过程中的时间顺序,粗略学习“越往后越接近完成”的趋势。比如一个成功示范中,前面的状态进度低,后面的状态进度高。

第二类是 Temporal-Difference learning。 这个部分让模型不只是学一个平滑的进度,还能区分成功和失败。比如两个画面看起来都很接近完成,但一个其实拉链卡住了,另一个已经顺利拉上了。TD learning 可以让 Value Model 对这种细微失败更敏感。

所以,Value Model 的作用可以概括为:

它不是简单判断“成功/失败”,而是给机器人提供更细、更密集的过程反馈。

这对于长时程、接触丰富的机器人任务尤其重要。

五、机器人如何在“想象中”自我提升?

36f709a3d5233f825a16d4828cf2d0f3.png

Figure 5 是整篇论文最关键的训练流程图。

RISE 的 self-improving loop 可以分成两个阶段:Rollout Stage 和 Training Stage

在 Rollout Stage 中,机器人策略先从真实离线数据里的某个状态开始。然后,policy 根据当前观察和任务指令生成一段动作。接着,这段动作不会立刻在真实机器人上执行,而是送进 Compositional World Model。

Dynamics Model 预测未来状态,Value Model 评估未来状态,并给这段动作计算 advantage。这里的 advantage 可以理解为:

这段动作比当前状态更好吗?好多少

如果 advantage 高,说明这段动作有助于任务完成;如果 advantage 低,说明它可能让任务变差,甚至导致失败。

在 Training Stage 中,RISE 会把这些想象出来的数据放进 buffer 里,再用它们训练 VLA policy。更具体地说,policy 会学习在某个状态下,面对某个 advantage 条件,应该输出什么动作。

这里有一个很有意思的点:

RISE 不只是学习成功动作,也会学习失败动作对应的低 advantage。

这意味着模型不只是模仿专家示范,而是在想象中看到了更多可能性:有些动作会成功,有些动作会失败,有些动作只是让任务稍微前进一点。这样的训练信号比普通 imitation learning 更丰富。

为了避免模型完全沉迷于“想象数据”而偏离真实世界,RISE 还会混入一部分真实离线数据。这样可以把策略锚定在真实机器人可执行的动作分布里。


六、RISE 测试了哪些任务?

f6023029e55d7fcd264a3d0529f9ce3a.jpg

论文在三个真实机器人任务上验证了 RISE。

第一个任务是 Dynamic Brick Sorting。 机器人需要从正在运动的传送带上抓取不同颜色的积木,并放到对应颜色的盒子里。这个任务难在目标是动态的,积木一直在移动,机器人必须快速判断和精确抓取。

第二个任务是 Backpack Packing。 机器人需要打开背包,把衣服放进去,再提起并拉上拉链。这个任务难在背包和衣服都是柔性物体,形变很复杂,单靠视觉很难稳定处理。

第三个任务是 Box Closing。 机器人需要把杯子放进盒子里,然后折叠盒盖,把卡扣塞进去。这个任务需要双臂协同,而且最后塞卡扣的动作非常精细。

这三个任务其实覆盖了机器人操作里的几个难点:

动态目标、柔性物体、双臂协同、精细接触控制。

所以它们不是简单的 pick-and-place,而是更接近真实世界中复杂操作任务。


七、实验结果:RISE 的提升非常明显

0f555f708aec939d95a40e7a64f279e7.png

从主实验结果来看,RISE 的成功率明显高于其他方法。

在 Dynamic Brick Sorting 任务中,基础 VLA 的成功率是 35%,RECAP 是 50%,而 RISE 达到了 85%。

在 Backpack Packing 任务中,基础 VLA 是 30%,RECAP 是 40%,RISE 达到了 85%。

在 Box Closing 任务中,基础 VLA 是 35%,RECAP 是 60%,RISE 达到了 95%。

这个结果说明,RISE 的提升不是只出现在某一个任务上,而是在动态抓取、柔性物体操作和双臂精细操作中都有效。

更重要的是,PPO 和 DSRL 这类直接在线 RL 方法在实验中并不稳定,有些任务甚至比基础模型更差。这也说明,在真实机器人任务里,直接对 VLA 做强化学习并不容易。

RISE 的优势在于,它没有直接让机器人在真实世界中大量试错,而是借助 world model 生成更大规模、更丰富的想象 rollout,再用这些 rollout 来提升策略。


八、为什么 RISE 有效?消融实验给出了答案

论文还做了几个很有价值的消融实验。

第一个问题是:真实离线数据和想象数据应该怎么平衡?

a00acef8c8fb2f967f4f4539d63e0814.png

结果显示,offline data ratio 不能太低,也不能太高。

如果真实数据比例太低,模型容易灾难性遗忘,逐渐偏离真实机器人动作分布。

如果真实数据比例太高,模型又会被原来的离线数据限制住,无法充分利用想象中的新经验。

论文中效果最好的比例是 0.6,也就是训练中保留相当比例的真实数据,同时加入想象 rollout。

第二个问题是:online action 和 online state 是否都有用?

29e808c436c66892cc3072a835055545.png

结果显示,只加入 online action 有提升,但完整加入 online action 和 world model 生成的 online state 后,性能进一步提高。

这说明 RISE 的价值不只是让 policy 提出新动作,还在于 world model 可以生成新的状态分布。

这些状态可能是离线数据里没有覆盖到的,因此能帮助 policy 学会更强的恢复能力和泛化能力。

第三个问题是:Dynamics Model 和 Value Model 的各个设计是否重要?

116b302f0c8f513b6b6b8d5c36fe2e98.png

结果也很清楚。去掉 dynamics pre-training,效果会明显下降;去掉 task-centric batching,效果也会下降。对于 Value Model,去掉 progress loss 或 TD learning 都会降低性能。

这说明 RISE 的效果不是来自某一个简单技巧,而是来自一整套组合设计:

更可控的未来预测、更密集的价值评估,以及稳定的策略自我改进流程。


九、RISE 的世界模型真的比普通视频生成模型更适合机器人吗?

beea90cb45cff2a27ffad6f11f4d0477.png

Figure 6 对比了 RISE、Cosmos 和 Genie Envisioner 在未来预测上的效果。

普通视频生成模型可能生成视觉上还不错的画面,但在机器人控制中,“看起来像”并不够。

因为机器人关心的是动作和结果之间的因果关系。

如果机器人执行了一个抓取动作,未来画面就应该反映出物体被抓起;如果执行的是移动动作,物体位置和机械臂姿态也应该合理变化。

Figure 6 中可以看到,Cosmos 和原始 Genie Envisioner 容易出现模糊、几何扭曲、动作不一致等问题。而 RISE 的预测结果更接近真实执行,时序上也更连贯。

这说明 RISE 的 Dynamics Model 并不是普通的“视频生成器”,而是经过机器人动作数据训练、更加 action-conditioned 的未来预测模型。

换句话说:

机器人世界模型的关键,不只是生成漂亮视频,而是生成符合动作后果的未来。


、这篇论文的真正意义

RISE 的意义不只是提出了一个新的 VLA 后训练方法。更重要的是,它展示了一种很有潜力的机器人学习范式:

让机器人通过 learned world model 在想象中进行 on-policy 学习。

过去,机器人学习主要依赖两种方式。

一种是 imitation learning,也就是模仿人类或专家示范。

这种方法稳定,但受限于示范数据。一旦机器人偏离示范轨迹,就可能不知道怎么恢复。

另一种是 reinforcement learning,也就是让机器人通过试错自己学习。

这种方法理论上更强,但真实世界试错成本太高。

RISE 尝试把两者结合起来。

它先用真实数据 warm-up,让 policy 拥有基本能力;然后用 world model 生成想象 rollout,让 policy 看到更多成功和失败情况;最后通过 advantage-conditioned training 来提升策略。

所以,它可以被看作一种新的 VLA 后训练路径:

真实数据提供基础能力,世界模型提供想象空间,Value Model 提供学习信号,policy 在想象中不断自我改进。

这也是为什么论文标题里用了 Self-Improving Robot Policy。


十一、当然,RISE 也不是完美答案

论文最后也提到了几个局限。

第一,RISE 仍然依赖 world model 的质量。

如果 world model 在某些罕见场景下生成了不符合物理规律的未来,policy 可能会学到错误经验。

第二,RISE 没有完全摆脱真实数据。

真实机器人数据仍然非常重要,因为它可以把想象训练锚定在真实世界里,防止模型越训越偏。

第三,RISE 把物理成本转移成了计算成本。

它减少了真实机器人试错,但训练高质量 world model 本身也需要大量算力。

所以,RISE 更像是一个方向性的突破,而不是最终解决方案。未来还需要更准确、更高效、更符合物理规律的世界模型。


总结

RISE 这篇论文可以用一句话概括:

它让机器人不再完全依赖真实世界试错,而是通过组合式世界模型在“想象空间”中进行强化学习,从而实现策略自我提升。

它的核心设计是一个 Compositional World Model:

Dynamics Model 负责预测动作导致的未来,Progress Value Model 负责评价这个未来是否更接近任务成功。基于这两个模块,RISE 可以生成大量想象 rollout,并用这些数据继续训练 VLA policy。

从实验结果来看,RISE 在动态积木分类、背包打包和盒子关闭三个真实机器人任务上都取得了明显提升。

这篇论文最值得关注的地方在于,它把 world model 从一个“未来预测工具”,进一步变成了一个“机器人训练环境”。

如果未来的世界模型足够准确、足够高效,也许机器人真的可以像人一样:

先在脑子里练习很多遍,再在真实世界中更稳、更聪明地行动。

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×