阅读时间大约9分钟（3348字）

2026-06-11 机器人训练场，可能要搬进世界模型里了

来源：豆包

智元GE 2.0 登顶WorldArena

这次智元 GE 2.0 登顶 WorldArena，我更想看的不是“榜单第一”这四个字，而是这个榜单到底在考什么。

过去聊机器人世界模型，很容易把它理解成视频生成：给一段历史画面，预测接下来会发生什么。这个方向当然重要，但机器人真正需要的世界模型，还要能接住动作。

也就是说，机器人做了一个动作之后，世界会怎么变；世界变了之后，策略下一步该怎么调；如果动作失败，模型能不能把失败后的世界继续推演下去。

我的判断是：WorldArena 这次更重要的信号，是世界模型开始从“生成未来画面”，进入“支撑机器人闭环训练”的阶段。

智元自研的 Genie Envisioner 世界模拟器 2.0（GE-Sim 2.0）登顶 WorldArena 第一赛道“世界模型感知与动作响应”，比较适合放在这个背景下看。它不是单点展示一个更清晰的视频模型，而是在补一个机器人世界模拟器真正需要的系统链路：动作输入、状态反馈、任务评估、数据回流。

世界动作模型与世界模拟器的双向演进

WorldArena 真正在考什么？

WorldArena 第一赛道叫“世界模型感知与动作响应”。这个名字里最关键的是后半句：动作响应。

对通用视频模型来说，生成结果“看起来合理”已经很难。但对机器人来说，画面合理只是第一步。机器人世界模型还要回答一个更苛刻的问题：同一个场景里，动作变了，世界结果也应该跟着变。

比如机器人去拔插头。模型不能只生成一个“机器人靠近插头”的画面，它还要知道：夹爪有没有抓住，插头有没有离开插座，台灯是不是熄灭，机器人下一步应该继续拉、重新抓，还是停止任务。

这就是 WorldArena 的价值。它把世界模型从“视觉预测能力”往“具身任务能力”上压了一步。

WorldArena 第一赛道榜单表现

所以 GE-Sim 2.0 拿到总分第一，我觉得最值得拆的不是排名本身，而是它说明世界模型的验证正在变得更系统：不只看视频质量，也看动作响应、闭环一致性和任务反馈。

世界模型的竞争，正在从“谁的视频更像”，走向“谁更能服务机器人任务”。

从 Genie Envisioner 到 GE-Sim 2.0，智元这条线在补什么？

2025 年，智元发布 Genie Envisioner，核心目标是让机器人理解世界：把视觉、语言和动作放进统一建模框架，让机器人感知环境、读懂指令，并对任务作出反应。

到了 GE-Sim 2.0，问题往前走了一层。机器人不只需要理解世界，还要能进入一个由模型构建的世界，在里面行动、试错、评估、学习，并把经验迁移回真实物理世界。

如果把智元这条技术路线往前追，可以看到几个连续节点：

EnerVerse-AC

：引入 action-conditioned world modeling，让模型基于动作推演未来。

GE-Sim 1.0

：把世界模型推向可用于策略闭环评估的神经模拟器。

EWMBench

：从场景一致性、动作正确性和语义对齐等维度评估世界模型。

Real2Edit2Real

：让真实数据不只被动采集，还能被模型扩展、编辑和反哺。

这几步放在一起看，GE-Sim 2.0 的位置会更清楚：它不是孤立的一次模型更新，而是把世界模型推向“可运行训练场”的一次升级。

在智元的技术叙事里，这条线可以拆成两部分。

一条是 世界动作模型（WAM）。它关心动作表征和因果推演：机器人做了什么，动作如何改变世界，世界又如何反馈给策略。

另一条是 世界模拟器（World Simulator）。它关心系统闭环：如何让世界模型变成一个可交互、可推演、可训练的环境。

这两条线合在一起，才是从“看懂世界”走向“构筑世界”的核心。

GE-Sim 2.0 最关键的，是补齐三个闭环接口

GE-Sim 2.0 的技术报告里，它被定义为面向机器人操作的闭环视频世界模拟器。

它接收多视角历史画面和机器人动作轨迹，生成未来多视角视频；同时预测机器人本体状态，并通过世界评判器对推演过程进行任务完成度评估。

GE-Sim 2.0 系统总览

我觉得这里最关键的不是“生成未来画面”，而是它补了三个接口。

第一类：状态接口

真实机器人策略不只看视觉，还要看关节角、夹爪开合程度、末端状态这些本体信息。如果世界模型只给视频，策略在模型世界里的观测就是残缺的。

GE-Sim 2.0 引入本体状态专家，从视频潜变量中解码双臂关节角和夹爪状态。这样策略在模型世界里也能拿到接近真实机器人的本体反馈。

本体状态专家：从视觉特征中恢复机器人本体状态

第二类：奖励接口

世界模拟器如果只能生成结果，却不能判断结果好坏，就很难支撑训练。GE-Sim 2.0 的世界评判器会根据任务指令，对生成推演进行成功判别和奖励评估，把生成结果转成机器可验证的反馈信号。

世界评判器：让模型世界具备任务完成度判断能力

第三类：速度接口

策略评估需要大量推演，不能只离线生成少量演示视频。GE-Sim 2.0 通过加速框架提升推理效率，并支持长时序评估中的跳帧推理，让模型世界更接近一个可规模化调用的训练环境。

这三个接口合在一起，GE-Sim 2.0 才真正从“视觉模拟”走向“闭环模拟”。

策略给出动作，世界模型生成环境变化；模型回传视觉和本体状态，世界评判器判断任务结果；策略再基于反馈继续行动和优化。这个循环，才是机器人在模型世界中学习和进化的基础。

机器人世界模型，必须对动作负责

机器人任务很少是瞬间完成的。

倒水、折叠毛巾、拔插头、借火、按指令抓取与释放、清洁镜面污渍，这些任务都包含连续动作、多阶段反馈和复杂物理变化。

它们考验的不只是画面质量，而是模型能不能在动作驱动下保持物理和语义一致。

拔插头任务中的动作响应与语义后果

拔插头这个例子很典型。机器人不仅要完成抓取和拉拽动作，还要让环境状态同步变化：插头被拔出后，台灯应该熄灭。

这不是普通外观重建，而是动作、接触、物体状态和语义结果之间的联动。

通用视频生成可以追求“看起来合理”；机器人世界模型必须对动作负责。动作不同，结果就要不同；动作失败，环境也要呈现失败后的状态。只有这样，策略在模型世界里的试错才有意义。

GE-Sim 2.0 还支持更长时序的稳定推演。技术报告中，团队将 50 秒推演拆分为多个 10 秒区间进行评估。结果显示，GE-Sim 2.0 在后段仍保持更稳定的视觉重建质量，而基线模型随着时间推移下降更明显。

长时序推演质量对比

这对具身智能很关键。

如果模型世界只能支撑几秒钟稳定生成，它可以做演示，却很难服务完整任务。真正可用的世界模拟器，必须把时间拉长到完整操作过程，让机器人看到动作的长期后果，并在长时序中持续修正策略。

闭环一致性，比单帧质量更重要

这次 GE-Sim 2.0 的实验里，我最看重的是闭环一致性。

团队将同一个策略分别放进真实机器人和世界模型中运行，再比较任务成功率和单次任务轨迹级别的成败结果。加入本体状态预测后，GE-Sim 2.0 与真实机器人结果的对齐更好。

闭环评估中，GE-Sim 2.0 与真实机器人结果保持更强一致性

这说明本体状态专家不是锦上添花。对闭环策略来说，本体状态会影响下一步动作预测；如果模型世界只提供画面，策略拿到的观测就不完整。

更进一步，GE-Sim 2.0 还展示了数据回流能力。

策略先在模型世界中推演，由世界评判器打分筛选高质量轨迹，再把这些轨迹混入行为克隆数据中训练策略。真实机器人评测显示，基于世界模型筛选的行为克隆，在倒水、折毛巾、拔插头三类任务上都带来了成功率提升。

基于世界模型筛选数据后的策略提升

这一步很关键。它说明模型世界不只是一个“可视化预测器”，开始承担一部分试错、筛选和评估成本。

真实机器人仍然是最终验证场，但模型世界可以先承担大量低成本探索，把真机时间留给更有价值的验证和迭代。

“多样交互”数据：失败也开始变成资产

模型世界要足够真实，离不开真实世界的数据。

但对世界模型来说，最有价值的数据并不只有专家成功示范。失败抓取、意外碰撞、物体掉落、液体飞溅、柔性形变、长尾恢复，这些看起来不完美的片段，往往更能暴露物理世界的真实规律。

一次抓取失败，可能揭示接触点、摩擦力、重心和执行误差之间的关系；一次滑落，可能呈现材料、几何形态与夹持策略之间的复杂耦合；一次碰撞，则会让模型看到力、空间位置和物体运动之间的真实反馈。

这也是智元开源 智元世界 2026 数据集主题二“多样交互” 的意义所在。

这批数据聚焦真实物理交互，面向世界模型、神经仿真器、物理感知和表征学习等方向，强调真实场景采集，并主动记录多样、复杂、接触丰富的交互过程。

过去，具身数据集往往强调“如何成功完成任务”。世界模型还需要理解“为什么失败、如何失败、失败后世界如何继续演化”。

失败数据正在从噪声变成资产。

只有见过足够丰富的动作分布、接触过程和非理想结果，世界模型才更有机会减少物理幻觉，在面对真实部署中的长尾情况时给出更可靠的预测。

写在最后：世界模型正在进入机器人训练链路

GE-Sim 2.0 不能替代真实世界。

真实机器人依然是最终裁判。接触细节、液体、柔性物体、极端长尾情况和跨本体泛化，都会持续挑战世界模型。

但 GE-Sim 2.0 正在改变训练方式中的一个核心比例：过去大量试错必须在真机上完成，现在其中一部分可以先进入模型世界。

机器人可以在模型世界中执行动作、观察后果、获得奖励、筛选轨迹，再把有效经验带回真实策略训练。真实世界沉淀数据，模型世界放大试错，策略模型持续吸收反馈，最终形成一条从真实到模拟、再回到真实的数据与能力飞轮。

这条飞轮大致可以这样运转：

真实机器人采集多样交互数据 → 数据训练更强世界模型 → 世界模型构建可闭环训练环境 → 策略在模型世界中评估和优化 → 优化后的策略回到真实机器人部署。

所以我觉得，这次 GE-Sim 2.0 登顶 WorldArena，最值得关注的不是单个模型又刷新了榜单，而是世界模型正在进入机器人训练链路。

它开始承担动作响应、闭环评估、奖励判断和数据回流这些更靠近真实部署的问题。

如果说上一阶段的世界模型，是让机器人“看懂世界”，那么 GE-Sim 2.0 指向的是下一阶段：

让机器人不只理解世界，而是在模型世界中学习、成长与进化。

具身智能

${{item.author_display_name}}$

右键可直接复制图片

2026-06-11 机器人训练场，可能要搬进世界模型里了

眸深智能完成近亿元Pre-A轮追加投资

元昊动力完成数亿元种子轮融资

景联文科技完成近亿元A轮融资

从“上场”到“进厂”——“人形机器人量产元年”新观察

具身智能大洗牌前夜，并购正在加速

WAIC上的触觉赛道：抢占灵巧手之外的另一大订单入口

2026-06-11 机器人训练场，可能要搬进世界模型里了

{{item.post_title}}

眸深智能完成近亿元Pre-A轮追加投资

元昊动力完成数亿元种子轮融资

景联文科技完成近亿元A轮融资

从“上场”到“进厂”——“人形机器人量产元年”新观察

具身智能大洗牌前夜，并购正在加速

WAIC上的触觉赛道：抢占灵巧手之外的另一大订单入口