阅读时间大约9分钟（3589字）

2026-05-22 WEM：把“世界”和“自我”分开，具身世界模型才能走得更远

来源：豆包

具身世界模型不能只预测未来，还要知道未来的变化分别由“世界”和“自我”谁来负责。

作者： Zuyao Lin 等出品：具身智能之心

最近，视频世界模型正在从“生成好看的视频”，走向“预测机器人在物理世界中的未来”。

从机器人数据生成，到策略评估，再到长时序任务想象，大家都希望模型能够提前“想象”机器人接下来会看到什么、会怎样行动、世界会怎样变化。

但一进入具身场景，尤其是长时序任务，问题就不再只是画面质量。

机器人需要一边导航、一边操作、一边根据连续指令改变环境。模型既要记住房间布局、物体位置、场景结构，又要预测机器人手臂、被操作物体和接触关系的变化。

这就带来了一个核心矛盾：

该稳定的世界不能乱变，该行动的自我又必须准确变化。

如果把这两类变化全部塞进一个单流视频生成模型中，短片段可能看起来还行，但一旦进入多轮指令，就容易出现场景漂移、物体幻觉、手和物体粘连、指令执行断裂等问题。

而这篇由中科院自动化所、中关村学院学等机构联合提出的工作 World-Ego Modeling for Long-Horizon Evolution in Hybrid Embodied Tasks，则提供了一个不同的视角：长时序具身世界模型的关键，不只是生成更真实的视频，而是要先把“世界”和“自我”的预测责任拆开。

论文链接：https://arxiv.org/abs/2605.19957

项目主页: https://zgca-hmi-lab.github.io/WEM

代码链接：https://github.com/ZGCA-HMI-Lab/WEM

论文提出了一个新的建模范式 World-Ego Modeling，并进一步实现了具体模型 WEM（World-Ego Model）。它不是继续沿着单流视频生成的路线硬堆模型能力，而是显式区分两类动态：一类是持久、与当前指令弱相关的场景规律，另一类是机器人中心、由当前指令驱动的交互变化。

一句话概括：

让 World 负责稳定的场景规律，让 Ego 负责机器人中心的交互动态。

01 为什么要区分 World 和 Ego？

在普通视频生成任务里，模型只需要回答一个问题：下一段画面看起来是否合理。

但在具身世界模型里，这个问题远远不够。机器人生成的不是一段孤立视频，而是一条可以继续执行、继续交互的未来轨迹。

这意味着模型必须同时处理两种完全不同的预测责任。

一类是相对稳定的场景规律，比如房间布局、背景结构、未被操作的物体位置；另一类是由当前指令触发的机器人动作，比如机械臂运动、夹爪接触、被操作物体的状态变化。

前者需要长期一致，后者需要快速响应。
前者对应 World，后者对应 Ego。

论文把未来演化拆成两类预测责任：

The World：包括 layout、objects、context 等持久场景规律，主要服务于长时序场景一致性；

The Ego：包括 embodiment、interacted object 等机器人中心动态，主要服务于指令驱动的动作与物体交互。

这一区分非常适合导航-操作混合任务。

导航阶段更依赖 World，因为模型需要稳定维护空间布局和场景结构；操作阶段更依赖 Ego，因为模型需要准确预测机器人动作、接触关系和被操作物体的状态变化。

如果 World 和 Ego 被混在一个预测流里，模型就很容易同时丢掉两件事：场景不够稳，交互也不够准。

WEM 的出发点就是：

长时序具身生成不是单纯的视频生成问题，而是 World 与 Ego 两类动态的协同预测问题。

02 World 和 Ego 的边界怎么划？

论文没有直接给出一个固定定义，而是系统比较了三种 World-Ego boundary。

Motion-based View

The World: 相机运动引起的场景变化
The Ego: 接触交互引起的物体运动

第一种方式是按运动来源划分。相机运动带来的背景变化属于 World，机器人接触物体产生的残差运动属于 Ego。

这个思路很直观，也可以用 optical flow 作为 proxy。但问题是，具身场景里的运动并不干净：机器人靠近物体、遮挡发生、接触开始时，相机运动和物体运动往往纠缠在一起，光流分解很容易变得不稳定。

Semantic-based View

The World: 背景区域与未被操作的物体
The Ego: 机器人本体与正在被操作的物体

第二种方式是按实体在任务中的角色划分。机器人身体和正在被操作的物体属于 Ego，背景与未被操作物体属于 World。

这也是论文最终采用的默认定义。它的关键不是静态语义分割，而是交互关系：一个物体在被操作前属于 World，被抓取或移动时进入 Ego，交互结束后又回到 World。

Intention-based View

The World: 历史视觉上下文中的稳定规律
The Ego: 当前指令驱动的动态变化

第三种方式不直接划分像素区域，而是按信息来源区分：World 来自历史视觉规律，Ego 来自当前指令驱动的动态。

这个视角更抽象，也更灵活。但由于缺少显式空间边界，模型不一定能稳定学出清晰的 World/Ego 分工。

最终实验表明，Semantic-based View 是最有效的 World-Ego 定义方式。

03 WEM 的整体框架：先预测状态，再分专家生成

WEM 的模型结构分为两个阶段：

Prediction Stage：使用 VLM 从多轮视觉语言历史中预测 World State 和 Ego State；

Generation Stage：使用 CP-MoE 视频生成器，根据 World/Ego 状态生成下一段视频。

在 Prediction Stage 中，模型使用可学习的 World Query 和 Ego Query，从历史观测、历史视频片段和指令序列中提取两个状态。World State 更关注长期历史中的场景规律，Ego State 更关注当前指令和近期交互。

在 Generation Stage 中，模型通过一个 Cascade-Parallel Mixture-of-Experts（CP-MoE） 结构实现 World/Ego 解耦。分为pre-、post-、full 三种世界-自我解耦方式。

这一设计的核心不是简单“多加一个分支”，而是让不同专家承担不同预测责任。

换句话说，WEM 不是直接让一个视频生成器从历史中“猜未来”，而是先把未来所需的信息拆成 World State 和 Ego State，再让不同专家分别负责不同区域的生成。

04 WEM 具体怎么做？

具体到模型实现，WEM 选择了论文中效果最好的组合：semantic-based view + full disentanglement。

具体来说，WEM 包含两个关键模块。

第一，VLM-based State Predictor。论文中使用冻结的 Qwen3-VL-2B-Instruct，并加入 256 个 learnable query，其中 192 个用于 World，64 个用于 Ego。通过 Role-Conditioned Attention，World Query 和 Ego Query 关注不同范围的信息，从源头上形成分工。

第二，CP-MoE Video Generator。生成器基于 Wan2.2-TI2V-5B 改造而来。Preceding Expert 先整合 World/Ego 状态，并预测 semantic world-ego mask。随后，mask 将视频 token 分配到 World Expert 或 Ego Expert。两个专家分别处理各自区域，最后再通过 unrouting 重组成完整 latent 并生成下一段视频。

这一过程让 World/Ego 分离贯穿了三个环节：

routing：决定哪些 token 属于 World，哪些属于 Ego；

expert specialization：World Expert 和 Ego Expert 分别处理各自区域；

unrouting：将两路输出重新组合成完整视频。

这就是论文中的 Full Disentanglement。

05 HTEWorld：专门评估长时序导航-操作任务

如果只评估短时操作，很多模型都能看起来不错。但 WEM 想解决的是更难的情况：多轮指令、长时序 rollout，以及导航和操作交替出现的复合任务。

现有 benchmark 很难同时覆盖这些需求，因此论文构建了新的 HTEWorld。

HTEWorld 基于 BEHAVIOR-1K 构建，面向 hybrid navigation-manipulation 任务，包含：

125K 个视频片段；超过 4.5M 帧；细粒度 action-centric annotations；300 条 multi-turn evaluation trajectories；超过 2K 条 instructions。

与传统短时操作 benchmark 不同，HTEWorld 更强调连续多轮指令下的世界演化能力。它不仅要看模型生成的视频是否真实，还要看模型能否在多轮任务中保持场景一致、指令对齐和导航-操作切换的稳定性。

06 哪种 World-Ego View 最有效？

论文首先比较了三种 World-Ego boundary。

结果非常明确：Semantic-based View 最好。

这说明，对具身任务来说，最有效的 World/Ego 分界不是纯运动，也不是纯信息来源，而是实体在交互中的语义角色。

机器人与被操作物体需要交给 Ego 处理，背景和未被操作物体需要交给 World 保持稳定。这样的划分更符合导航-操作任务中的真实需求。

07 解耦应该做到什么程度？

论文进一步比较了不同 disentanglement strategies。

这里最值得注意的是：

只做一点点解耦并不够。

Pre-Disentanglement 只是提前划分 token，但后续计算仍然共享；Post-Disentanglement 虽然使用两个专家，但如果没有合适的 semantic proxy，效果也不理想。

Full Disentanglement 的优势在于，它让 semantic proxy 同时参与 token routing、专家计算和输出重组。也就是说，World/Ego 的分工不是临时的，而是贯穿整个生成过程。

08 主结果：WEM 在 HTEWorld 上取得最好表现

论文将 WEM 与 WoW-7B、Cosmos-Predict 2.5、PAN-style baseline 等方法进行比较。

WEM 在 HTEWorld 上取得最高 EWMScore。相比 PAN-style baseline，提升约 3 分；相比 Cosmos-Predict 2.5 与 WoW，优势更明显。

更重要的是，WEM 的提升不仅体现在总分上，也体现在 motion、consistency、3D、control、physics 等与具身世界演化密切相关的维度上。

09 六个 HTEWorld-specific 指标：看长时序是否真的稳

为了更准确衡量长时序和导航-操作能力，论文还引入了 6 个 HTEWorld-specific metrics。

它们分为两组：

RCBD / LPSA / CISR：关注 multi-turn continuous generation，包括 chunk continuity、instruction alignment 和 layout preservation；PMPA / CPDM / FPHS：关注 unified navigation-manipulation generation，包括 phase-matched motion、camera-object coordination 和 long-horizon stability。

WEM 在六个指标上都达到最优或并列最优。其中，WEM 在 RCBD、CISR、CPDM 上取得最优结果，并在 LPSA、PMPA、FPHS 上达到并列最优。

这说明 World-Ego Modeling 改善的不只是视觉质量，而是真正提升了多轮任务中的连续性、指令对齐和混合导航-操作稳定性。

10 定性对比：长任务里，错误会一轮轮放大

论文中的定性结果很直观。

在同一个五步任务中，基线模型会出现各种典型错误：

物理关系不合理（physical implausibility）；凭空生成物体或细节（hallucination）；手臂和冰箱门混在一起（hand-door blending）；披萨放置位置错误（wrong placement）；盘子或门发生形变（plate / door deformation）；冰箱门没有正确关闭（not closed）；长时序 rollout 后场景整体崩溃（scene collapse）。

而 WEM 能更稳定地完成从导航到开门、拿取、放置、关门的完整过程。