阅读时间大约10分钟以上（4345字）

2026-06-01 机器人不想在真实世界里反复试错，于是它开始在“想象中训练”自己

来源：豆包

让机器人不再完全依赖真实世界试错，而是通过组合式世界模型在“想象空间”中进行强化学习，从而实现策略自我提升

出品：具身释界

如果让一个机器人学习整理积木、收拾背包、关闭盒子，最直接的方法是什么？

答案似乎很简单：让机器人不断尝试，成功了就奖励，失败了就调整。

这就是强化学习的基本思路。

但问题是，真实世界里的机器人试错，实在太贵了。

机器人每执行一次任务，都需要真实机械臂运动、物体摆放、任务重置，有时候还需要人工在旁边监控。比如机器人要学会从传送带上抓积木，如果抓歪了，积木掉了，场景就要重新整理；机器人要学会把衣服塞进背包，如果背包被扯歪了，也需要人工恢复。整个过程慢、贵，而且很难大规模并行。

这篇论文 RISE: Self-Improving Robot Policy with Compositional World Model 关注的就是这个问题：

能不能不让机器人在真实世界里反复试错，而是让它先在一个学出来的“想象世界”里练习，然后再把练习经验用来提升真实机器人策略？

这听起来有点像人类学习。

我们并不是每次都要真的动手试错。很多时候，我们会先在脑子里想象：“如果我这样拿，会不会掉？”“如果我这样拉拉链，会不会卡住？”

RISE 想做的事情，就是让机器人也拥有类似的“脑内模拟”能力。

一、为什么真实世界 RL 很难？

Figure 1 是文章开头的总览图。它左边展示的是传统真实世界强化学习，右边展示的是 RISE 的核心思路。

传统物理世界中的 RL 有几个很明显的问题：

第一，真实机器人交互是串行的。

不像仿真环境里可以同时开几百个环境并行训练，真实机械臂通常只能一次一次执行任务。

第二，真实环境需要人工重置。

抓积木失败了，要把积木重新放好；背包没拉上，要重新整理；盒子没关好，也要重新摆放。这些过程非常消耗人力。

第三，真实试错有安全和硬件风险。

机器人动作不稳定时，可能撞到物体、损坏环境，甚至损坏机械臂本身。

所以，虽然强化学习理论上可以让机器人通过成功和失败不断变强，但在真实机器人场景中，它很难像游戏或仿真那样大规模运行。

RISE 的解决方案是：

把强化学习的试错过程，从真实世界搬到 world model 里面。

也就是说，真实机器人不需要真的执行每一个候选动作。模型可以先在“想象空间”里预测：如果机器人执行这个动作，未来会发生什么；然后再判断这个未来是好还是坏。最后，机器人策略只学习那些更有价值的动作。

二、RISE 的核心：组合式世界模型

RISE 最核心的模块叫 Compositional World Model，也就是“组合式世界模型”。

为什么叫组合式？

因为它不是用一个模型包办所有事情，而是把世界模型拆成两个部分：

一个是 Dynamics Model。它负责预测未来。简单来说，就是回答：

“如果机器人现在执行这段动作，接下来画面会变成什么样？”

另一个是 Progress Value Model。它负责评价未来。也就是说，它要判断：

“这个未来状态是不是离任务成功更近了？”

这两个模块合起来，就形成了一个机器人可以交互的“想象环境”。

机器人策略先提出一个 action chunk，也就是一小段连续动作。Dynamics Model 根据当前多视角图像和这段动作，生成未来几帧多视角图像。然后 Progress Value Model 对这些未来图像打分，判断这段动作是否有助于完成任务。

这样一来，RISE 不需要真的让机器人去执行每个动作，也能得到类似强化学习里的反馈信号。

三、Dynamics Model：让机器人想象“执行动作后的未来”

Figure 3 展示了 RISE 的想象能力。

这张图可以分成三部分来理解。

第一部分是 Diverse Future Imagination。给定同一个初始状态，不同的候选动作会导致不同的未来。比如机器人可以把物体往不同方向移动，未来画面也会随之变化。这说明 Dynamics Model 不只是生成一个“看起来合理”的视频，而是能根据动作变化生成不同结果。

第二部分是 Failure Case Simulation。这一点很关键。RISE 不只会想象成功情况，也会想象失败情况。比如拉链拉过头、背包提起来失败等。对于强化学习来说，失败样本同样重要，因为机器人不仅要知道什么动作好，也要知道什么动作会导致失败。

第三部分是 High-Fidelity Generation。 论文还展示了模型预测结果和真实执行结果的对比。可以看到，RISE 生成的未来画面在动作趋势和物体变化上比较接近真实情况。

这部分可以这样理解：

RISE 的 Dynamics Model 像是机器人脑中的“物理直觉”。它不需要真的执行动作，也能大致想象这个动作会带来什么后果。

当然，这个世界模型不是完美物理仿真。它本质上还是一个视频生成模型。但只要它在短时间范围内足够准确，就可以为策略学习提供有价值的训练信号。

四、Value Model：判断这个未来到底好不好

只会想象未来还不够。

机器人还需要知道：这个未来是好是坏。

比如在背包任务中，机器人可能已经把衣服塞进去了，但还没拉上拉链。这个状态虽然还不是最终成功，但它明显比一开始更接近成功。

如果只用最终成功或失败作为奖励，机器人会很难学习长任务。因为很多中间步骤都没有明确反馈。

所以 RISE 设计了 Progress Value Model，让模型给每个中间状态估计一个“任务进度”。

这个 Value Model 的训练用了两类信号。

第一类是 progress estimate。也就是根据一个任务执行过程中的时间顺序，粗略学习“越往后越接近完成”的趋势。比如一个成功示范中，前面的状态进度低，后面的状态进度高。

第二类是 Temporal-Difference learning。这个部分让模型不只是学一个平滑的进度，还能区分成功和失败。比如两个画面看起来都很接近完成，但一个其实拉链卡住了，另一个已经顺利拉上了。TD learning 可以让 Value Model 对这种细微失败更敏感。

所以，Value Model 的作用可以概括为：

它不是简单判断“成功/失败”，而是给机器人提供更细、更密集的过程反馈。

这对于长时程、接触丰富的机器人任务尤其重要。

五、机器人如何在“想象中”自我提升？

Figure 5 是整篇论文最关键的训练流程图。

RISE 的 self-improving loop 可以分成两个阶段：Rollout Stage 和 Training Stage。

在 Rollout Stage 中，机器人策略先从真实离线数据里的某个状态开始。然后，policy 根据当前观察和任务指令生成一段动作。接着，这段动作不会立刻在真实机器人上执行，而是送进 Compositional World Model。

Dynamics Model 预测未来状态，Value Model 评估未来状态，并给这段动作计算 advantage。这里的 advantage 可以理解为：

这段动作比当前状态更好吗？好多少？

如果 advantage 高，说明这段动作有助于任务完成；如果 advantage 低，说明它可能让任务变差，甚至导致失败。

在 Training Stage 中，RISE 会把这些想象出来的数据放进 buffer 里，再用它们训练 VLA policy。更具体地说，policy 会学习在某个状态下，面对某个 advantage 条件，应该输出什么动作。

这里有一个很有意思的点：

RISE 不只是学习成功动作，也会学习失败动作对应的低 advantage。

这意味着模型不只是模仿专家示范，而是在想象中看到了更多可能性：有些动作会成功，有些动作会失败，有些动作只是让任务稍微前进一点。这样的训练信号比普通 imitation learning 更丰富。

为了避免模型完全沉迷于“想象数据”而偏离真实世界，RISE 还会混入一部分真实离线数据。这样可以把策略锚定在真实机器人可执行的动作分布里。

六、RISE 测试了哪些任务？

论文在三个真实机器人任务上验证了 RISE。

第一个任务是 Dynamic Brick Sorting。机器人需要从正在运动的传送带上抓取不同颜色的积木，并放到对应颜色的盒子里。这个任务难在目标是动态的，积木一直在移动，机器人必须快速判断和精确抓取。

第二个任务是 Backpack Packing。机器人需要打开背包，把衣服放进去，再提起并拉上拉链。这个任务难在背包和衣服都是柔性物体，形变很复杂，单靠视觉很难稳定处理。

第三个任务是 Box Closing。机器人需要把杯子放进盒子里，然后折叠盒盖，把卡扣塞进去。这个任务需要双臂协同，而且最后塞卡扣的动作非常精细。

这三个任务其实覆盖了机器人操作里的几个难点：

动态目标、柔性物体、双臂协同、精细接触控制。

所以它们不是简单的 pick-and-place，而是更接近真实世界中复杂操作任务。

七、实验结果：RISE 的提升非常明显

从主实验结果来看，RISE 的成功率明显高于其他方法。

在 Dynamic Brick Sorting 任务中，基础 VLA 的成功率是 35%，RECAP 是 50%，而 RISE 达到了 85%。

在 Backpack Packing 任务中，基础 VLA 是 30%，RECAP 是 40%，RISE 达到了 85%。

在 Box Closing 任务中，基础 VLA 是 35%，RECAP 是 60%，RISE 达到了 95%。

这个结果说明，RISE 的提升不是只出现在某一个任务上，而是在动态抓取、柔性物体操作和双臂精细操作中都有效。

更重要的是，PPO 和 DSRL 这类直接在线 RL 方法在实验中并不稳定，有些任务甚至比基础模型更差。这也说明，在真实机器人任务里，直接对 VLA 做强化学习并不容易。

RISE 的优势在于，它没有直接让机器人在真实世界中大量试错，而是借助 world model 生成更大规模、更丰富的想象 rollout，再用这些 rollout 来提升策略。

八、为什么 RISE 有效？消融实验给出了答案

论文还做了几个很有价值的消融实验。

第一个问题是：真实离线数据和想象数据应该怎么平衡？

结果显示，offline data ratio 不能太低，也不能太高。

如果真实数据比例太低，模型容易灾难性遗忘，逐渐偏离真实机器人动作分布。

如果真实数据比例太高，模型又会被原来的离线数据限制住，无法充分利用想象中的新经验。

论文中效果最好的比例是 0.6，也就是训练中保留相当比例的真实数据，同时加入想象 rollout。

第二个问题是：online action 和 online state 是否都有用？

结果显示，只加入 online action 有提升，但完整加入 online action 和 world model 生成的 online state 后，性能进一步提高。

这说明 RISE 的价值不只是让 policy 提出新动作，还在于 world model 可以生成新的状态分布。

这些状态可能是离线数据里没有覆盖到的，因此能帮助 policy 学会更强的恢复能力和泛化能力。

第三个问题是：Dynamics Model 和 Value Model 的各个设计是否重要？

结果也很清楚。去掉 dynamics pre-training，效果会明显下降；去掉 task-centric batching，效果也会下降。对于 Value Model，去掉 progress loss 或 TD learning 都会降低性能。

这说明 RISE 的效果不是来自某一个简单技巧，而是来自一整套组合设计：

更可控的未来预测、更密集的价值评估，以及稳定的策略自我改进流程。

九、RISE 的世界模型真的比普通视频生成模型更适合机器人吗？

Figure 6 对比了 RISE、Cosmos 和 Genie Envisioner 在未来预测上的效果。

普通视频生成模型可能生成视觉上还不错的画面，但在机器人控制中，“看起来像”并不够。

因为机器人关心的是动作和结果之间的因果关系。

如果机器人执行了一个抓取动作，未来画面就应该反映出物体被抓起；如果执行的是移动动作，物体位置和机械臂姿态也应该合理变化。

Figure 6 中可以看到，Cosmos 和原始 Genie Envisioner 容易出现模糊、几何扭曲、动作不一致等问题。而 RISE 的预测结果更接近真实执行，时序上也更连贯。

这说明 RISE 的 Dynamics Model 并不是普通的“视频生成器”，而是经过机器人动作数据训练、更加 action-conditioned 的未来预测模型。

换句话说：

机器人世界模型的关键，不只是生成漂亮视频，而是生成符合动作后果的未来。

十、这篇论文的真正意义

RISE 的意义不只是提出了一个新的 VLA 后训练方法。更重要的是，它展示了一种很有潜力的机器人学习范式：

让机器人通过 learned world model 在想象中进行 on-policy 学习。

过去，机器人学习主要依赖两种方式。

一种是 imitation learning，也就是模仿人类或专家示范。

这种方法稳定，但受限于示范数据。一旦机器人偏离示范轨迹，就可能不知道怎么恢复。

另一种是 reinforcement learning，也就是让机器人通过试错自己学习。

这种方法理论上更强，但真实世界试错成本太高。

RISE 尝试把两者结合起来。

它先用真实数据 warm-up，让 policy 拥有基本能力；然后用 world model 生成想象 rollout，让 policy 看到更多成功和失败情况；最后通过 advantage-conditioned training 来提升策略。

所以，它可以被看作一种新的 VLA 后训练路径：

真实数据提供基础能力，世界模型提供想象空间，Value Model 提供学习信号，policy 在想象中不断自我改进。

这也是为什么论文标题里用了 Self-Improving Robot Policy。

十一、当然，RISE 也不是完美答案

论文最后也提到了几个局限。

第一，RISE 仍然依赖 world model 的质量。

如果 world model 在某些罕见场景下生成了不符合物理规律的未来，policy 可能会学到错误经验。

第二，RISE 没有完全摆脱真实数据。

真实机器人数据仍然非常重要，因为它可以把想象训练锚定在真实世界里，防止模型越训越偏。

第三，RISE 把物理成本转移成了计算成本。

它减少了真实机器人试错，但训练高质量 world model 本身也需要大量算力。

所以，RISE 更像是一个方向性的突破，而不是最终解决方案。未来还需要更准确、更高效、更符合物理规律的世界模型。

总结

RISE 这篇论文可以用一句话概括：

它让机器人不再完全依赖真实世界试错，而是通过组合式世界模型在“想象空间”中进行强化学习，从而实现策略自我提升。

它的核心设计是一个 Compositional World Model：

Dynamics Model 负责预测动作导致的未来，Progress Value Model 负责评价这个未来是否更接近任务成功。基于这两个模块，RISE 可以生成大量想象 rollout，并用这些数据继续训练 VLA policy。

从实验结果来看，RISE 在动态积木分类、背包打包和盒子关闭三个真实机器人任务上都取得了明显提升。

这篇论文最值得关注的地方在于，它把 world model 从一个“未来预测工具”，进一步变成了一个“机器人训练环境”。

如果未来的世界模型足够准确、足够高效，也许机器人真的可以像人一样：

先在脑子里练习很多遍，再在真实世界中更稳、更聪明地行动。

${{item.author_display_name}}$

右键可直接复制图片

2026-06-01 机器人不想在真实世界里反复试错，于是它开始在“想象中训练”自己

中科原动力完成B2轮数亿元融资

昆腾动力完成超亿元种子轮融资

宇树科技首次公开发行股票并在科创板上市

具身最强开源合辑汇总：从数据集到仿真平台，一文覆盖具身智能全链路

李飞飞World Labs收购SceniX最新博客：仿真数据训练出的策略直接在五种真机上连跑一小时

这张牌桌，半年烧了百亿：311起融资拆出机器人赛道的明牌与暗流

2026-06-01 机器人不想在真实世界里反复试错，于是它开始在“想象中训练”自己

{{item.post_title}}

中科原动力完成B2轮数亿元融资

昆腾动力完成超亿元种子轮融资

宇树科技首次公开发行股票并在科创板上市

具身最强开源合辑汇总：从数据集到仿真平台，一文覆盖具身智能全链路

李飞飞World Labs收购SceniX最新博客：仿真数据训练出的策略直接在五种真机上连跑一小时

这张牌桌，半年烧了百亿：311起融资拆出机器人赛道的明牌与暗流