阅读时间大约10分钟以上(4345字)
出品:具身释界
如果让一个机器人学习整理积木、收拾背包、关闭盒子,最直接的方法是什么?
答案似乎很简单:让机器人不断尝试,成功了就奖励,失败了就调整。
这就是强化学习的基本思路。
但问题是,真实世界里的机器人试错,实在太贵了。
机器人每执行一次任务,都需要真实机械臂运动、物体摆放、任务重置,有时候还需要人工在旁边监控。比如机器人要学会从传送带上抓积木,如果抓歪了,积木掉了,场景就要重新整理;机器人要学会把衣服塞进背包,如果背包被扯歪了,也需要人工恢复。整个过程慢、贵,而且很难大规模并行。
这篇论文 RISE: Self-Improving Robot Policy with Compositional World Model 关注的就是这个问题:
能不能不让机器人在真实世界里反复试错,而是让它先在一个学出来的“想象世界”里练习,然后再把练习经验用来提升真实机器人策略?
这听起来有点像人类学习。
我们并不是每次都要真的动手试错。很多时候,我们会先在脑子里想象:“如果我这样拿,会不会掉?”“如果我这样拉拉链,会不会卡住?”
RISE 想做的事情,就是让机器人也拥有类似的“脑内模拟”能力。
一、为什么真实世界 RL 很难?

Figure 1 是文章开头的总览图。它左边展示的是传统真实世界强化学习,右边展示的是 RISE 的核心思路。
传统物理世界中的 RL 有几个很明显的问题:
第一,真实机器人交互是串行的。
不像仿真环境里可以同时开几百个环境并行训练,真实机械臂通常只能一次一次执行任务。
第二,真实环境需要人工重置。
抓积木失败了,要把积木重新放好;背包没拉上,要重新整理;盒子没关好,也要重新摆放。这些过程非常消耗人力。
第三,真实试错有安全和硬件风险。
机器人动作不稳定时,可能撞到物体、损坏环境,甚至损坏机械臂本身。
所以,虽然强化学习理论上可以让机器人通过成功和失败不断变强,但在真实机器人场景中,它很难像游戏或仿真那样大规模运行。
RISE 的解决方案是:
把强化学习的试错过程,从真实世界搬到 world model 里面。
也就是说,真实机器人不需要真的执行每一个候选动作。模型可以先在“想象空间”里预测:如果机器人执行这个动作,未来会发生什么;然后再判断这个未来是好还是坏。最后,机器人策略只学习那些更有价值的动作。
二、RISE 的核心:组合式世界模型

RISE 最核心的模块叫 Compositional World Model,也就是“组合式世界模型”。
为什么叫组合式?
因为它不是用一个模型包办所有事情,而是把世界模型拆成两个部分:
一个是 Dynamics Model。 它负责预测未来。简单来说,就是回答:
“如果机器人现在执行这段动作,接下来画面会变成什么样?”
另一个是 Progress Value Model。 它负责评价未来。也就是说,它要判断:
“这个未来状态是不是离任务成功更近了?”
这两个模块合起来,就形成了一个机器人可以交互的“想象环境”。
机器人策略先提出一个 action chunk,也就是一小段连续动作。Dynamics Model 根据当前多视角图像和这段动作,生成未来几帧多视角图像。然后 Progress Value Model 对这些未来图像打分,判断这段动作是否有助于完成任务。
这样一来,RISE 不需要真的让机器人去执行每个动作,也能得到类似强化学习里的反馈信号。
三、Dynamics Model:让机器人想象“执行动作后的未来”

Figure 3 展示了 RISE 的想象能力。
这张图可以分成三部分来理解。
第一部分是 Diverse Future Imagination。 给定同一个初始状态,不同的候选动作会导致不同的未来。比如机器人可以把物体往不同方向移动,未来画面也会随之变化。这说明 Dynamics Model 不只是生成一个“看起来合理”的视频,而是能根据动作变化生成不同结果。
第二部分是 Failure Case Simulation。 这一点很关键。RISE 不只会想象成功情况,也会想象失败情况。比如拉链拉过头、背包提起来失败等。对于强化学习来说,失败样本同样重要,因为机器人不仅要知道什么动作好,也要知道什么动作会导致失败。
第三部分是 High-Fidelity Generation。 论文还展示了模型预测结果和真实执行结果的对比。可以看到,RISE 生成的未来画面在动作趋势和物体变化上比较接近真实情况。
这部分可以这样理解:
RISE 的 Dynamics Model 像是机器人脑中的“物理直觉”。它不需要真的执行动作,也能大致想象这个动作会带来什么后果。
当然,这个世界模型不是完美物理仿真。它本质上还是一个视频生成模型。但只要它在短时间范围内足够准确,就可以为策略学习提供有价值的训练信号。
四、Value Model:判断这个未来到底好不好
只会想象未来还不够。
机器人还需要知道:这个未来是好是坏。
比如在背包任务中,机器人可能已经把衣服塞进去了,但还没拉上拉链。这个状态虽然还不是最终成功,但它明显比一开始更接近成功。
如果只用最终成功或失败作为奖励,机器人会很难学习长任务。因为很多中间步骤都没有明确反馈。
所以 RISE 设计了 Progress Value Model,让模型给每个中间状态估计一个“任务进度”。
这个 Value Model 的训练用了两类信号。
第一类是 progress estimate。 也就是根据一个任务执行过程中的时间顺序,粗略学习“越往后越接近完成”的趋势。比如一个成功示范中,前面的状态进度低,后面的状态进度高。
第二类是 Temporal-Difference learning。 这个部分让模型不只是学一个平滑的进度,还能区分成功和失败。比如两个画面看起来都很接近完成,但一个其实拉链卡住了,另一个已经顺利拉上了。TD learning 可以让 Value Model 对这种细微失败更敏感。
所以,Value Model 的作用可以概括为:
它不是简单判断“成功/失败”,而是给机器人提供更细、更密集的过程反馈。
这对于长时程、接触丰富的机器人任务尤其重要。
五、机器人如何在“想象中”自我提升?

Figure 5 是整篇论文最关键的训练流程图。
RISE 的 self-improving loop 可以分成两个阶段:Rollout Stage 和 Training Stage。
在 Rollout Stage 中,机器人策略先从真实离线数据里的某个状态开始。然后,policy 根据当前观察和任务指令生成一段动作。接着,这段动作不会立刻在真实机器人上执行,而是送进 Compositional World Model。
Dynamics Model 预测未来状态,Value Model 评估未来状态,并给这段动作计算 advantage。这里的 advantage 可以理解为:
这段动作比当前状态更好吗?好多少?
如果 advantage 高,说明这段动作有助于任务完成;如果 advantage 低,说明它可能让任务变差,甚至导致失败。
在 Training Stage 中,RISE 会把这些想象出来的数据放进 buffer 里,再用它们训练 VLA policy。更具体地说,policy 会学习在某个状态下,面对某个 advantage 条件,应该输出什么动作。
这里有一个很有意思的点:
RISE 不只是学习成功动作,也会学习失败动作对应的低 advantage。
这意味着模型不只是模仿专家示范,而是在想象中看到了更多可能性:有些动作会成功,有些动作会失败,有些动作只是让任务稍微前进一点。这样的训练信号比普通 imitation learning 更丰富。
为了避免模型完全沉迷于“想象数据”而偏离真实世界,RISE 还会混入一部分真实离线数据。这样可以把策略锚定在真实机器人可执行的动作分布里。
六、RISE 测试了哪些任务?

论文在三个真实机器人任务上验证了 RISE。
第一个任务是 Dynamic Brick Sorting。 机器人需要从正在运动的传送带上抓取不同颜色的积木,并放到对应颜色的盒子里。这个任务难在目标是动态的,积木一直在移动,机器人必须快速判断和精确抓取。
第二个任务是 Backpack Packing。 机器人需要打开背包,把衣服放进去,再提起并拉上拉链。这个任务难在背包和衣服都是柔性物体,形变很复杂,单靠视觉很难稳定处理。
第三个任务是 Box Closing。 机器人需要把杯子放进盒子里,然后折叠盒盖,把卡扣塞进去。这个任务需要双臂协同,而且最后塞卡扣的动作非常精细。
这三个任务其实覆盖了机器人操作里的几个难点:
动态目标、柔性物体、双臂协同、精细接触控制。
所以它们不是简单的 pick-and-place,而是更接近真实世界中复杂操作任务。
七、实验结果:RISE 的提升非常明显

从主实验结果来看,RISE 的成功率明显高于其他方法。
在 Dynamic Brick Sorting 任务中,基础 VLA 的成功率是 35%,RECAP 是 50%,而 RISE 达到了 85%。
在 Backpack Packing 任务中,基础 VLA 是 30%,RECAP 是 40%,RISE 达到了 85%。
在 Box Closing 任务中,基础 VLA 是 35%,RECAP 是 60%,RISE 达到了 95%。
这个结果说明,RISE 的提升不是只出现在某一个任务上,而是在动态抓取、柔性物体操作和双臂精细操作中都有效。
更重要的是,PPO 和 DSRL 这类直接在线 RL 方法在实验中并不稳定,有些任务甚至比基础模型更差。这也说明,在真实机器人任务里,直接对 VLA 做强化学习并不容易。
RISE 的优势在于,它没有直接让机器人在真实世界中大量试错,而是借助 world model 生成更大规模、更丰富的想象 rollout,再用这些 rollout 来提升策略。
八、为什么 RISE 有效?消融实验给出了答案
论文还做了几个很有价值的消融实验。
第一个问题是:真实离线数据和想象数据应该怎么平衡?

结果显示,offline data ratio 不能太低,也不能太高。
如果真实数据比例太低,模型容易灾难性遗忘,逐渐偏离真实机器人动作分布。
如果真实数据比例太高,模型又会被原来的离线数据限制住,无法充分利用想象中的新经验。
论文中效果最好的比例是 0.6,也就是训练中保留相当比例的真实数据,同时加入想象 rollout。
第二个问题是:online action 和 online state 是否都有用?

结果显示,只加入 online action 有提升,但完整加入 online action 和 world model 生成的 online state 后,性能进一步提高。
这说明 RISE 的价值不只是让 policy 提出新动作,还在于 world model 可以生成新的状态分布。
这些状态可能是离线数据里没有覆盖到的,因此能帮助 policy 学会更强的恢复能力和泛化能力。
第三个问题是:Dynamics Model 和 Value Model 的各个设计是否重要?

结果也很清楚。去掉 dynamics pre-training,效果会明显下降;去掉 task-centric batching,效果也会下降。对于 Value Model,去掉 progress loss 或 TD learning 都会降低性能。
这说明 RISE 的效果不是来自某一个简单技巧,而是来自一整套组合设计:
更可控的未来预测、更密集的价值评估,以及稳定的策略自我改进流程。
九、RISE 的世界模型真的比普通视频生成模型更适合机器人吗?

Figure 6 对比了 RISE、Cosmos 和 Genie Envisioner 在未来预测上的效果。
普通视频生成模型可能生成视觉上还不错的画面,但在机器人控制中,“看起来像”并不够。
因为机器人关心的是动作和结果之间的因果关系。
如果机器人执行了一个抓取动作,未来画面就应该反映出物体被抓起;如果执行的是移动动作,物体位置和机械臂姿态也应该合理变化。
Figure 6 中可以看到,Cosmos 和原始 Genie Envisioner 容易出现模糊、几何扭曲、动作不一致等问题。而 RISE 的预测结果更接近真实执行,时序上也更连贯。
这说明 RISE 的 Dynamics Model 并不是普通的“视频生成器”,而是经过机器人动作数据训练、更加 action-conditioned 的未来预测模型。
换句话说:
机器人世界模型的关键,不只是生成漂亮视频,而是生成符合动作后果的未来。
十、这篇论文的真正意义
RISE 的意义不只是提出了一个新的 VLA 后训练方法。更重要的是,它展示了一种很有潜力的机器人学习范式:
让机器人通过 learned world model 在想象中进行 on-policy 学习。
过去,机器人学习主要依赖两种方式。
一种是 imitation learning,也就是模仿人类或专家示范。
这种方法稳定,但受限于示范数据。一旦机器人偏离示范轨迹,就可能不知道怎么恢复。
另一种是 reinforcement learning,也就是让机器人通过试错自己学习。
这种方法理论上更强,但真实世界试错成本太高。
RISE 尝试把两者结合起来。
它先用真实数据 warm-up,让 policy 拥有基本能力;然后用 world model 生成想象 rollout,让 policy 看到更多成功和失败情况;最后通过 advantage-conditioned training 来提升策略。
所以,它可以被看作一种新的 VLA 后训练路径:
真实数据提供基础能力,世界模型提供想象空间,Value Model 提供学习信号,policy 在想象中不断自我改进。
这也是为什么论文标题里用了 Self-Improving Robot Policy。
十一、当然,RISE 也不是完美答案
论文最后也提到了几个局限。
第一,RISE 仍然依赖 world model 的质量。
如果 world model 在某些罕见场景下生成了不符合物理规律的未来,policy 可能会学到错误经验。
第二,RISE 没有完全摆脱真实数据。
真实机器人数据仍然非常重要,因为它可以把想象训练锚定在真实世界里,防止模型越训越偏。
第三,RISE 把物理成本转移成了计算成本。
它减少了真实机器人试错,但训练高质量 world model 本身也需要大量算力。
所以,RISE 更像是一个方向性的突破,而不是最终解决方案。未来还需要更准确、更高效、更符合物理规律的世界模型。
总结
RISE 这篇论文可以用一句话概括:
它让机器人不再完全依赖真实世界试错,而是通过组合式世界模型在“想象空间”中进行强化学习,从而实现策略自我提升。
它的核心设计是一个 Compositional World Model:
Dynamics Model 负责预测动作导致的未来,Progress Value Model 负责评价这个未来是否更接近任务成功。基于这两个模块,RISE 可以生成大量想象 rollout,并用这些数据继续训练 VLA policy。
从实验结果来看,RISE 在动态积木分类、背包打包和盒子关闭三个真实机器人任务上都取得了明显提升。
这篇论文最值得关注的地方在于,它把 world model 从一个“未来预测工具”,进一步变成了一个“机器人训练环境”。
如果未来的世界模型足够准确、足够高效,也许机器人真的可以像人一样:
先在脑子里练习很多遍,再在真实世界中更稳、更聪明地行动。
