机器人训练场,可能要搬进世界模型里了
统计 阅读时间大约9分钟(3348字)

3小时前 机器人训练场,可能要搬进世界模型里了

来源:豆包
智元GE 2.0 登顶WorldArena

这次智元 GE 2.0 登顶 WorldArena,我更想看的不是“榜单第一”这四个字,而是这个榜单到底在考什么。

过去聊机器人世界模型,很容易把它理解成视频生成:给一段历史画面,预测接下来会发生什么。这个方向当然重要,但机器人真正需要的世界模型,还要能接住动作。

也就是说,机器人做了一个动作之后,世界会怎么变;世界变了之后,策略下一步该怎么调;如果动作失败,模型能不能把失败后的世界继续推演下去。

我的判断是:WorldArena 这次更重要的信号,是世界模型开始从“生成未来画面”,进入“支撑机器人闭环训练”的阶段。

智元自研的 Genie Envisioner 世界模拟器 2.0(GE-Sim 2.0) 登顶 WorldArena 第一赛道“世界模型感知与动作响应”,比较适合放在这个背景下看。它不是单点展示一个更清晰的视频模型,而是在补一个机器人世界模拟器真正需要的系统链路:动作输入、状态反馈、任务评估、数据回流。

9a7a992d1c501d3f54ab3bd0b33f422a.png

世界动作模型与世界模拟器的双向演进

01

WorldArena 真正在考什么?

WorldArena 第一赛道叫“世界模型感知与动作响应”。这个名字里最关键的是后半句:动作响应。

对通用视频模型来说,生成结果“看起来合理”已经很难。但对机器人来说,画面合理只是第一步。机器人世界模型还要回答一个更苛刻的问题:同一个场景里,动作变了,世界结果也应该跟着变

比如机器人去拔插头。模型不能只生成一个“机器人靠近插头”的画面,它还要知道:夹爪有没有抓住,插头有没有离开插座,台灯是不是熄灭,机器人下一步应该继续拉、重新抓,还是停止任务。

这就是 WorldArena 的价值。它把世界模型从“视觉预测能力”往“具身任务能力”上压了一步。

4c1910894954d936a32084da0f9cdd7b.png

WorldArena 第一赛道榜单表现

所以 GE-Sim 2.0 拿到总分第一,我觉得最值得拆的不是排名本身,而是它说明世界模型的验证正在变得更系统:不只看视频质量,也看动作响应、闭环一致性和任务反馈。

世界模型的竞争,正在从“谁的视频更像”,走向“谁更能服务机器人任务”。

02

从 Genie Envisioner 到 GE-Sim 2.0,智元这条线在补什么?

2025 年,智元发布 Genie Envisioner,核心目标是让机器人理解世界:把视觉、语言和动作放进统一建模框架,让机器人感知环境、读懂指令,并对任务作出反应。

到了 GE-Sim 2.0,问题往前走了一层。机器人不只需要理解世界,还要能进入一个由模型构建的世界,在里面行动、试错、评估、学习,并把经验迁移回真实物理世界。

如果把智元这条技术路线往前追,可以看到几个连续节点:

EnerVerse-AC

:引入 action-conditioned world modeling,让模型基于动作推演未来。

GE-Sim 1.0

:把世界模型推向可用于策略闭环评估的神经模拟器。

EWMBench

:从场景一致性、动作正确性和语义对齐等维度评估世界模型。

Real2Edit2Real

:让真实数据不只被动采集,还能被模型扩展、编辑和反哺。

这几步放在一起看,GE-Sim 2.0 的位置会更清楚:它不是孤立的一次模型更新,而是把世界模型推向“可运行训练场”的一次升级。

在智元的技术叙事里,这条线可以拆成两部分。

一条是 世界动作模型(WAM)。它关心动作表征和因果推演:机器人做了什么,动作如何改变世界,世界又如何反馈给策略。

另一条是 世界模拟器(World Simulator)。它关心系统闭环:如何让世界模型变成一个可交互、可推演、可训练的环境。

这两条线合在一起,才是从“看懂世界”走向“构筑世界”的核心。

03

GE-Sim 2.0 最关键的,是补齐三个闭环接口

GE-Sim 2.0 的技术报告里,它被定义为面向机器人操作的闭环视频世界模拟器。

它接收多视角历史画面和机器人动作轨迹,生成未来多视角视频;同时预测机器人本体状态,并通过世界评判器对推演过程进行任务完成度评估。

3507c0311dba57abf6d6eee3835cd2e0.png

GE-Sim 2.0 系统总览

我觉得这里最关键的不是“生成未来画面”,而是它补了三个接口。

第一类:状态接口

真实机器人策略不只看视觉,还要看关节角、夹爪开合程度、末端状态这些本体信息。如果世界模型只给视频,策略在模型世界里的观测就是残缺的。

GE-Sim 2.0 引入本体状态专家,从视频潜变量中解码双臂关节角和夹爪状态。这样策略在模型世界里也能拿到接近真实机器人的本体反馈。

bc0f5eefd0156e19b9c9d068d8ee97c8.png

本体状态专家:从视觉特征中恢复机器人本体状态

第二类:奖励接口

世界模拟器如果只能生成结果,却不能判断结果好坏,就很难支撑训练。GE-Sim 2.0 的世界评判器会根据任务指令,对生成推演进行成功判别和奖励评估,把生成结果转成机器可验证的反馈信号。

d572d4286c2137edda2f7931dfc67a02.png

世界评判器:让模型世界具备任务完成度判断能力

第三类:速度接口

策略评估需要大量推演,不能只离线生成少量演示视频。GE-Sim 2.0 通过加速框架提升推理效率,并支持长时序评估中的跳帧推理,让模型世界更接近一个可规模化调用的训练环境。

这三个接口合在一起,GE-Sim 2.0 才真正从“视觉模拟”走向“闭环模拟”。

策略给出动作,世界模型生成环境变化;模型回传视觉和本体状态,世界评判器判断任务结果;策略再基于反馈继续行动和优化。这个循环,才是机器人在模型世界中学习和进化的基础。

04

机器人世界模型,必须对动作负责

机器人任务很少是瞬间完成的。

倒水、折叠毛巾、拔插头、借火、按指令抓取与释放、清洁镜面污渍,这些任务都包含连续动作、多阶段反馈和复杂物理变化。

它们考验的不只是画面质量,而是模型能不能在动作驱动下保持物理和语义一致。

b5709d51aa338c77fe7db8310f5fab38.png

拔插头任务中的动作响应与语义后果

拔插头这个例子很典型。机器人不仅要完成抓取和拉拽动作,还要让环境状态同步变化:插头被拔出后,台灯应该熄灭。

这不是普通外观重建,而是动作、接触、物体状态和语义结果之间的联动。

通用视频生成可以追求“看起来合理”;机器人世界模型必须对动作负责。动作不同,结果就要不同;动作失败,环境也要呈现失败后的状态。只有这样,策略在模型世界里的试错才有意义。

GE-Sim 2.0 还支持更长时序的稳定推演。技术报告中,团队将 50 秒推演拆分为多个 10 秒区间进行评估。结果显示,GE-Sim 2.0 在后段仍保持更稳定的视觉重建质量,而基线模型随着时间推移下降更明显。

0f2141410a1a642d7e4e1d7c4b85c327.png

长时序推演质量对比

这对具身智能很关键。

如果模型世界只能支撑几秒钟稳定生成,它可以做演示,却很难服务完整任务。真正可用的世界模拟器,必须把时间拉长到完整操作过程,让机器人看到动作的长期后果,并在长时序中持续修正策略。

05

闭环一致性,比单帧质量更重要

这次 GE-Sim 2.0 的实验里,我最看重的是闭环一致性。

团队将同一个策略分别放进真实机器人和世界模型中运行,再比较任务成功率和单次任务轨迹级别的成败结果。加入本体状态预测后,GE-Sim 2.0 与真实机器人结果的对齐更好。

6e28cb9983b9e71a798df0226620e5cf.png

闭环评估中,GE-Sim 2.0 与真实机器人结果保持更强一致性

这说明本体状态专家不是锦上添花。对闭环策略来说,本体状态会影响下一步动作预测;如果模型世界只提供画面,策略拿到的观测就不完整。

更进一步,GE-Sim 2.0 还展示了数据回流能力。

策略先在模型世界中推演,由世界评判器打分筛选高质量轨迹,再把这些轨迹混入行为克隆数据中训练策略。真实机器人评测显示,基于世界模型筛选的行为克隆,在倒水、折毛巾、拔插头三类任务上都带来了成功率提升。

b39035b59f2ed63dcb2fbbafc51cb287.png

基于世界模型筛选数据后的策略提升

这一步很关键。它说明模型世界不只是一个“可视化预测器”,开始承担一部分试错、筛选和评估成本。

真实机器人仍然是最终验证场,但模型世界可以先承担大量低成本探索,把真机时间留给更有价值的验证和迭代。

06

“多样交互”数据:失败也开始变成资产

模型世界要足够真实,离不开真实世界的数据。

但对世界模型来说,最有价值的数据并不只有专家成功示范。失败抓取、意外碰撞、物体掉落、液体飞溅、柔性形变、长尾恢复,这些看起来不完美的片段,往往更能暴露物理世界的真实规律。

一次抓取失败,可能揭示接触点、摩擦力、重心和执行误差之间的关系;一次滑落,可能呈现材料、几何形态与夹持策略之间的复杂耦合;一次碰撞,则会让模型看到力、空间位置和物体运动之间的真实反馈。

这也是智元开源 智元世界 2026 数据集主题二“多样交互” 的意义所在。

这批数据聚焦真实物理交互,面向世界模型、神经仿真器、物理感知和表征学习等方向,强调真实场景采集,并主动记录多样、复杂、接触丰富的交互过程。

过去,具身数据集往往强调“如何成功完成任务”。世界模型还需要理解“为什么失败、如何失败、失败后世界如何继续演化”。

失败数据正在从噪声变成资产。

只有见过足够丰富的动作分布、接触过程和非理想结果,世界模型才更有机会减少物理幻觉,在面对真实部署中的长尾情况时给出更可靠的预测。

07

写在最后:世界模型正在进入机器人训练链路

GE-Sim 2.0 不能替代真实世界。

真实机器人依然是最终裁判。接触细节、液体、柔性物体、极端长尾情况和跨本体泛化,都会持续挑战世界模型。

但 GE-Sim 2.0 正在改变训练方式中的一个核心比例:过去大量试错必须在真机上完成,现在其中一部分可以先进入模型世界。

机器人可以在模型世界中执行动作、观察后果、获得奖励、筛选轨迹,再把有效经验带回真实策略训练。真实世界沉淀数据,模型世界放大试错,策略模型持续吸收反馈,最终形成一条从真实到模拟、再回到真实的数据与能力飞轮。

这条飞轮大致可以这样运转:

真实机器人采集多样交互数据 → 数据训练更强世界模型 → 世界模型构建可闭环训练环境 → 策略在模型世界中评估和优化 → 优化后的策略回到真实机器人部署。

所以我觉得,这次 GE-Sim 2.0 登顶 WorldArena,最值得关注的不是单个模型又刷新了榜单,而是世界模型正在进入机器人训练链路。

它开始承担动作响应、闭环评估、奖励判断和数据回流这些更靠近真实部署的问题。

如果说上一阶段的世界模型,是让机器人“看懂世界”,那么 GE-Sim 2.0 指向的是下一阶段:

让机器人不只理解世界,而是在模型世界中学习、成长与进化。

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×