阅读时间大约9分钟(3348字)
这次智元 GE 2.0 登顶 WorldArena,我更想看的不是“榜单第一”这四个字,而是这个榜单到底在考什么。
过去聊机器人世界模型,很容易把它理解成视频生成:给一段历史画面,预测接下来会发生什么。这个方向当然重要,但机器人真正需要的世界模型,还要能接住动作。
也就是说,机器人做了一个动作之后,世界会怎么变;世界变了之后,策略下一步该怎么调;如果动作失败,模型能不能把失败后的世界继续推演下去。
我的判断是:WorldArena 这次更重要的信号,是世界模型开始从“生成未来画面”,进入“支撑机器人闭环训练”的阶段。
智元自研的 Genie Envisioner 世界模拟器 2.0(GE-Sim 2.0) 登顶 WorldArena 第一赛道“世界模型感知与动作响应”,比较适合放在这个背景下看。它不是单点展示一个更清晰的视频模型,而是在补一个机器人世界模拟器真正需要的系统链路:动作输入、状态反馈、任务评估、数据回流。

世界动作模型与世界模拟器的双向演进
01
WorldArena 真正在考什么?
WorldArena 第一赛道叫“世界模型感知与动作响应”。这个名字里最关键的是后半句:动作响应。
对通用视频模型来说,生成结果“看起来合理”已经很难。但对机器人来说,画面合理只是第一步。机器人世界模型还要回答一个更苛刻的问题:同一个场景里,动作变了,世界结果也应该跟着变。
比如机器人去拔插头。模型不能只生成一个“机器人靠近插头”的画面,它还要知道:夹爪有没有抓住,插头有没有离开插座,台灯是不是熄灭,机器人下一步应该继续拉、重新抓,还是停止任务。
这就是 WorldArena 的价值。它把世界模型从“视觉预测能力”往“具身任务能力”上压了一步。

WorldArena 第一赛道榜单表现
所以 GE-Sim 2.0 拿到总分第一,我觉得最值得拆的不是排名本身,而是它说明世界模型的验证正在变得更系统:不只看视频质量,也看动作响应、闭环一致性和任务反馈。
世界模型的竞争,正在从“谁的视频更像”,走向“谁更能服务机器人任务”。
02
从 Genie Envisioner 到 GE-Sim 2.0,智元这条线在补什么?
2025 年,智元发布 Genie Envisioner,核心目标是让机器人理解世界:把视觉、语言和动作放进统一建模框架,让机器人感知环境、读懂指令,并对任务作出反应。
到了 GE-Sim 2.0,问题往前走了一层。机器人不只需要理解世界,还要能进入一个由模型构建的世界,在里面行动、试错、评估、学习,并把经验迁移回真实物理世界。
如果把智元这条技术路线往前追,可以看到几个连续节点:
EnerVerse-AC
:引入 action-conditioned world modeling,让模型基于动作推演未来。
GE-Sim 1.0
:把世界模型推向可用于策略闭环评估的神经模拟器。
EWMBench
:从场景一致性、动作正确性和语义对齐等维度评估世界模型。
Real2Edit2Real
:让真实数据不只被动采集,还能被模型扩展、编辑和反哺。
这几步放在一起看,GE-Sim 2.0 的位置会更清楚:它不是孤立的一次模型更新,而是把世界模型推向“可运行训练场”的一次升级。
在智元的技术叙事里,这条线可以拆成两部分。
一条是 世界动作模型(WAM)。它关心动作表征和因果推演:机器人做了什么,动作如何改变世界,世界又如何反馈给策略。
另一条是 世界模拟器(World Simulator)。它关心系统闭环:如何让世界模型变成一个可交互、可推演、可训练的环境。
这两条线合在一起,才是从“看懂世界”走向“构筑世界”的核心。
03
GE-Sim 2.0 最关键的,是补齐三个闭环接口
GE-Sim 2.0 的技术报告里,它被定义为面向机器人操作的闭环视频世界模拟器。
它接收多视角历史画面和机器人动作轨迹,生成未来多视角视频;同时预测机器人本体状态,并通过世界评判器对推演过程进行任务完成度评估。

GE-Sim 2.0 系统总览
我觉得这里最关键的不是“生成未来画面”,而是它补了三个接口。
第一类:状态接口
真实机器人策略不只看视觉,还要看关节角、夹爪开合程度、末端状态这些本体信息。如果世界模型只给视频,策略在模型世界里的观测就是残缺的。
GE-Sim 2.0 引入本体状态专家,从视频潜变量中解码双臂关节角和夹爪状态。这样策略在模型世界里也能拿到接近真实机器人的本体反馈。

本体状态专家:从视觉特征中恢复机器人本体状态
第二类:奖励接口
世界模拟器如果只能生成结果,却不能判断结果好坏,就很难支撑训练。GE-Sim 2.0 的世界评判器会根据任务指令,对生成推演进行成功判别和奖励评估,把生成结果转成机器可验证的反馈信号。

世界评判器:让模型世界具备任务完成度判断能力
第三类:速度接口
策略评估需要大量推演,不能只离线生成少量演示视频。GE-Sim 2.0 通过加速框架提升推理效率,并支持长时序评估中的跳帧推理,让模型世界更接近一个可规模化调用的训练环境。
这三个接口合在一起,GE-Sim 2.0 才真正从“视觉模拟”走向“闭环模拟”。
策略给出动作,世界模型生成环境变化;模型回传视觉和本体状态,世界评判器判断任务结果;策略再基于反馈继续行动和优化。这个循环,才是机器人在模型世界中学习和进化的基础。
04
机器人世界模型,必须对动作负责
机器人任务很少是瞬间完成的。
倒水、折叠毛巾、拔插头、借火、按指令抓取与释放、清洁镜面污渍,这些任务都包含连续动作、多阶段反馈和复杂物理变化。
它们考验的不只是画面质量,而是模型能不能在动作驱动下保持物理和语义一致。

拔插头任务中的动作响应与语义后果
拔插头这个例子很典型。机器人不仅要完成抓取和拉拽动作,还要让环境状态同步变化:插头被拔出后,台灯应该熄灭。
这不是普通外观重建,而是动作、接触、物体状态和语义结果之间的联动。
通用视频生成可以追求“看起来合理”;机器人世界模型必须对动作负责。动作不同,结果就要不同;动作失败,环境也要呈现失败后的状态。只有这样,策略在模型世界里的试错才有意义。
GE-Sim 2.0 还支持更长时序的稳定推演。技术报告中,团队将 50 秒推演拆分为多个 10 秒区间进行评估。结果显示,GE-Sim 2.0 在后段仍保持更稳定的视觉重建质量,而基线模型随着时间推移下降更明显。

长时序推演质量对比
这对具身智能很关键。
如果模型世界只能支撑几秒钟稳定生成,它可以做演示,却很难服务完整任务。真正可用的世界模拟器,必须把时间拉长到完整操作过程,让机器人看到动作的长期后果,并在长时序中持续修正策略。
05
闭环一致性,比单帧质量更重要
这次 GE-Sim 2.0 的实验里,我最看重的是闭环一致性。
团队将同一个策略分别放进真实机器人和世界模型中运行,再比较任务成功率和单次任务轨迹级别的成败结果。加入本体状态预测后,GE-Sim 2.0 与真实机器人结果的对齐更好。

闭环评估中,GE-Sim 2.0 与真实机器人结果保持更强一致性
这说明本体状态专家不是锦上添花。对闭环策略来说,本体状态会影响下一步动作预测;如果模型世界只提供画面,策略拿到的观测就不完整。
更进一步,GE-Sim 2.0 还展示了数据回流能力。
策略先在模型世界中推演,由世界评判器打分筛选高质量轨迹,再把这些轨迹混入行为克隆数据中训练策略。真实机器人评测显示,基于世界模型筛选的行为克隆,在倒水、折毛巾、拔插头三类任务上都带来了成功率提升。

基于世界模型筛选数据后的策略提升
这一步很关键。它说明模型世界不只是一个“可视化预测器”,开始承担一部分试错、筛选和评估成本。
真实机器人仍然是最终验证场,但模型世界可以先承担大量低成本探索,把真机时间留给更有价值的验证和迭代。
06
“多样交互”数据:失败也开始变成资产
模型世界要足够真实,离不开真实世界的数据。
但对世界模型来说,最有价值的数据并不只有专家成功示范。失败抓取、意外碰撞、物体掉落、液体飞溅、柔性形变、长尾恢复,这些看起来不完美的片段,往往更能暴露物理世界的真实规律。
一次抓取失败,可能揭示接触点、摩擦力、重心和执行误差之间的关系;一次滑落,可能呈现材料、几何形态与夹持策略之间的复杂耦合;一次碰撞,则会让模型看到力、空间位置和物体运动之间的真实反馈。
这也是智元开源 智元世界 2026 数据集主题二“多样交互” 的意义所在。
这批数据聚焦真实物理交互,面向世界模型、神经仿真器、物理感知和表征学习等方向,强调真实场景采集,并主动记录多样、复杂、接触丰富的交互过程。
过去,具身数据集往往强调“如何成功完成任务”。世界模型还需要理解“为什么失败、如何失败、失败后世界如何继续演化”。
失败数据正在从噪声变成资产。
只有见过足够丰富的动作分布、接触过程和非理想结果,世界模型才更有机会减少物理幻觉,在面对真实部署中的长尾情况时给出更可靠的预测。
07
写在最后:世界模型正在进入机器人训练链路
GE-Sim 2.0 不能替代真实世界。
真实机器人依然是最终裁判。接触细节、液体、柔性物体、极端长尾情况和跨本体泛化,都会持续挑战世界模型。
但 GE-Sim 2.0 正在改变训练方式中的一个核心比例:过去大量试错必须在真机上完成,现在其中一部分可以先进入模型世界。
机器人可以在模型世界中执行动作、观察后果、获得奖励、筛选轨迹,再把有效经验带回真实策略训练。真实世界沉淀数据,模型世界放大试错,策略模型持续吸收反馈,最终形成一条从真实到模拟、再回到真实的数据与能力飞轮。
这条飞轮大致可以这样运转:
真实机器人采集多样交互数据 → 数据训练更强世界模型 → 世界模型构建可闭环训练环境 → 策略在模型世界中评估和优化 → 优化后的策略回到真实机器人部署。
所以我觉得,这次 GE-Sim 2.0 登顶 WorldArena,最值得关注的不是单个模型又刷新了榜单,而是世界模型正在进入机器人训练链路。
它开始承担动作响应、闭环评估、奖励判断和数据回流这些更靠近真实部署的问题。
如果说上一阶段的世界模型,是让机器人“看懂世界”,那么 GE-Sim 2.0 指向的是下一阶段:
让机器人不只理解世界,而是在模型世界中学习、成长与进化。