阅读时间大约9分钟(3589字)
作者: Zuyao Lin 等 出品:具身智能之心
最近,视频世界模型正在从“生成好看的视频”,走向“预测机器人在物理世界中的未来”。
从机器人数据生成,到策略评估,再到长时序任务想象,大家都希望模型能够提前“想象”机器人接下来会看到什么、会怎样行动、世界会怎样变化。
但一进入具身场景,尤其是长时序任务,问题就不再只是画面质量。
机器人需要一边导航、一边操作、一边根据连续指令改变环境。模型既要记住房间布局、物体位置、场景结构,又要预测机器人手臂、被操作物体和接触关系的变化。
这就带来了一个核心矛盾:
该稳定的世界不能乱变,该行动的自我又必须准确变化。
如果把这两类变化全部塞进一个单流视频生成模型中,短片段可能看起来还行,但一旦进入多轮指令,就容易出现场景漂移、物体幻觉、手和物体粘连、指令执行断裂等问题。
而这篇由中科院自动化所、中关村学院学等机构联合提出的工作 World-Ego Modeling for Long-Horizon Evolution in Hybrid Embodied Tasks,则提供了一个不同的视角:长时序具身世界模型的关键,不只是生成更真实的视频,而是要先把“世界”和“自我”的预测责任拆开。

论文链接:https://arxiv.org/abs/2605.19957
项目主页: https://zgca-hmi-lab.github.io/WEM
代码链接:https://github.com/ZGCA-HMI-Lab/WEM
论文提出了一个新的建模范式 World-Ego Modeling,并进一步实现了具体模型 WEM(World-Ego Model)。它不是继续沿着单流视频生成的路线硬堆模型能力,而是显式区分两类动态:一类是持久、与当前指令弱相关的场景规律,另一类是机器人中心、由当前指令驱动的交互变化。
一句话概括:
让 World 负责稳定的场景规律,让 Ego 负责机器人中心的交互动态。

01 为什么要区分 World 和 Ego?
在普通视频生成任务里,模型只需要回答一个问题:下一段画面看起来是否合理。
但在具身世界模型里,这个问题远远不够。机器人生成的不是一段孤立视频,而是一条可以继续执行、继续交互的未来轨迹。
这意味着模型必须同时处理两种完全不同的预测责任。
一类是相对稳定的场景规律,比如房间布局、背景结构、未被操作的物体位置;另一类是由当前指令触发的机器人动作,比如机械臂运动、夹爪接触、被操作物体的状态变化。
前者需要长期一致,后者需要快速响应。
前者对应 World,后者对应 Ego。
论文把未来演化拆成两类预测责任:
The World:包括 layout、objects、context 等持久场景规律,主要服务于长时序场景一致性;
The Ego:包括 embodiment、interacted object 等机器人中心动态,主要服务于指令驱动的动作与物体交互。
这一区分非常适合导航-操作混合任务。
导航阶段更依赖 World,因为模型需要稳定维护空间布局和场景结构;操作阶段更依赖 Ego,因为模型需要准确预测机器人动作、接触关系和被操作物体的状态变化。
如果 World 和 Ego 被混在一个预测流里,模型就很容易同时丢掉两件事:场景不够稳,交互也不够准。
WEM 的出发点就是:
长时序具身生成不是单纯的视频生成问题,而是 World 与 Ego 两类动态的协同预测问题。
02 World 和 Ego 的边界怎么划?
论文没有直接给出一个固定定义,而是系统比较了三种 World-Ego boundary。

Motion-based View
The World: 相机运动引起的场景变化
The Ego: 接触交互引起的物体运动
第一种方式是按运动来源划分。相机运动带来的背景变化属于 World,机器人接触物体产生的残差运动属于 Ego。
这个思路很直观,也可以用 optical flow 作为 proxy。但问题是,具身场景里的运动并不干净:机器人靠近物体、遮挡发生、接触开始时,相机运动和物体运动往往纠缠在一起,光流分解很容易变得不稳定。
Semantic-based View
The World: 背景区域与未被操作的物体
The Ego: 机器人本体与正在被操作的物体
第二种方式是按实体在任务中的角色划分。机器人身体和正在被操作的物体属于 Ego,背景与未被操作物体属于 World。
这也是论文最终采用的默认定义。它的关键不是静态语义分割,而是交互关系:一个物体在被操作前属于 World,被抓取或移动时进入 Ego,交互结束后又回到 World。
Intention-based View
The World: 历史视觉上下文中的稳定规律
The Ego: 当前指令驱动的动态变化
第三种方式不直接划分像素区域,而是按信息来源区分:World 来自历史视觉规律,Ego 来自当前指令驱动的动态。
这个视角更抽象,也更灵活。但由于缺少显式空间边界,模型不一定能稳定学出清晰的 World/Ego 分工。
最终实验表明,Semantic-based View 是最有效的 World-Ego 定义方式。
03 WEM 的整体框架:先预测状态,再分专家生成
WEM 的模型结构分为两个阶段:
Prediction Stage:使用 VLM 从多轮视觉语言历史中预测 World State 和 Ego State;
Generation Stage:使用 CP-MoE 视频生成器,根据 World/Ego 状态生成下一段视频。

在 Prediction Stage 中,模型使用可学习的 World Query 和 Ego Query,从历史观测、历史视频片段和指令序列中提取两个状态。World State 更关注长期历史中的场景规律,Ego State 更关注当前指令和近期交互。
在 Generation Stage 中,模型通过一个 Cascade-Parallel Mixture-of-Experts(CP-MoE) 结构实现 World/Ego 解耦。分为pre-、post-、full 三种世界-自我解耦方式。
这一设计的核心不是简单“多加一个分支”,而是让不同专家承担不同预测责任。
换句话说,WEM 不是直接让一个视频生成器从历史中“猜未来”,而是先把未来所需的信息拆成 World State 和 Ego State,再让不同专家分别负责不同区域的生成。
04 WEM 具体怎么做?
具体到模型实现,WEM 选择了论文中效果最好的组合:semantic-based view + full disentanglement。

具体来说,WEM 包含两个关键模块。
第一,VLM-based State Predictor。论文中使用冻结的 Qwen3-VL-2B-Instruct,并加入 256 个 learnable query,其中 192 个用于 World,64 个用于 Ego。通过 Role-Conditioned Attention,World Query 和 Ego Query 关注不同范围的信息,从源头上形成分工。
第二,CP-MoE Video Generator。生成器基于 Wan2.2-TI2V-5B 改造而来。Preceding Expert 先整合 World/Ego 状态,并预测 semantic world-ego mask。随后,mask 将视频 token 分配到 World Expert 或 Ego Expert。两个专家分别处理各自区域,最后再通过 unrouting 重组成完整 latent 并生成下一段视频。
这一过程让 World/Ego 分离贯穿了三个环节:
routing:决定哪些 token 属于 World,哪些属于 Ego;
expert specialization:World Expert 和 Ego Expert 分别处理各自区域;
unrouting:将两路输出重新组合成完整视频。
这就是论文中的 Full Disentanglement。
05 HTEWorld:专门评估长时序导航-操作任务
如果只评估短时操作,很多模型都能看起来不错。但 WEM 想解决的是更难的情况:多轮指令、长时序 rollout,以及导航和操作交替出现的复合任务。
现有 benchmark 很难同时覆盖这些需求,因此论文构建了新的 HTEWorld。
HTEWorld 基于 BEHAVIOR-1K 构建,面向 hybrid navigation-manipulation 任务,包含:
125K 个视频片段;超过 4.5M 帧;细粒度 action-centric annotations;300 条 multi-turn evaluation trajectories;超过 2K 条 instructions。
与传统短时操作 benchmark 不同,HTEWorld 更强调连续多轮指令下的世界演化能力。它不仅要看模型生成的视频是否真实,还要看模型能否在多轮任务中保持场景一致、指令对齐和导航-操作切换的稳定性。

06 哪种 World-Ego View 最有效?
论文首先比较了三种 World-Ego boundary。

结果非常明确:Semantic-based View 最好。
这说明,对具身任务来说,最有效的 World/Ego 分界不是纯运动,也不是纯信息来源,而是实体在交互中的语义角色。
机器人与被操作物体需要交给 Ego 处理,背景和未被操作物体需要交给 World 保持稳定。这样的划分更符合导航-操作任务中的真实需求。
07 解耦应该做到什么程度?

论文进一步比较了不同 disentanglement strategies。
这里最值得注意的是:
只做一点点解耦并不够。
Pre-Disentanglement 只是提前划分 token,但后续计算仍然共享;Post-Disentanglement 虽然使用两个专家,但如果没有合适的 semantic proxy,效果也不理想。
Full Disentanglement 的优势在于,它让 semantic proxy 同时参与 token routing、专家计算和输出重组。也就是说,World/Ego 的分工不是临时的,而是贯穿整个生成过程。
08 主结果:WEM 在 HTEWorld 上取得最好表现
论文将 WEM 与 WoW-7B、Cosmos-Predict 2.5、PAN-style baseline 等方法进行比较。
WEM 在 HTEWorld 上取得最高 EWMScore。相比 PAN-style baseline,提升约 3 分;相比 Cosmos-Predict 2.5 与 WoW,优势更明显。
更重要的是,WEM 的提升不仅体现在总分上,也体现在 motion、consistency、3D、control、physics 等与具身世界演化密切相关的维度上。
09 六个 HTEWorld-specific 指标:看长时序是否真的稳
为了更准确衡量长时序和导航-操作能力,论文还引入了 6 个 HTEWorld-specific metrics。
它们分为两组:
RCBD / LPSA / CISR:关注 multi-turn continuous generation,包括 chunk continuity、instruction alignment 和 layout preservation;PMPA / CPDM / FPHS:关注 unified navigation-manipulation generation,包括 phase-matched motion、camera-object coordination 和 long-horizon stability。

WEM 在六个指标上都达到最优或并列最优。其中,WEM 在 RCBD、CISR、CPDM 上取得最优结果,并在 LPSA、PMPA、FPHS 上达到并列最优。
这说明 World-Ego Modeling 改善的不只是视觉质量,而是真正提升了多轮任务中的连续性、指令对齐和混合导航-操作稳定性。
10 定性对比:长任务里,错误会一轮轮放大
论文中的定性结果很直观。
在同一个五步任务中,基线模型会出现各种典型错误:
物理关系不合理(physical implausibility);凭空生成物体或细节(hallucination);手臂和冰箱门混在一起(hand-door blending);披萨放置位置错误(wrong placement);盘子或门发生形变(plate / door deformation);冰箱门没有正确关闭(not closed);长时序 rollout 后场景整体崩溃(scene collapse)。
而 WEM 能更稳定地完成从导航到开门、拿取、放置、关门的完整过程。

这也是长时序具身任务最难的地方:
模型不是只要生成当前一步,而是要让当前一步成为下一步的可靠前提。
WEM 的优势正来自它把场景一致性和机器人交互分给不同预测角色,从结构上减少两类动态互相污染。
11 专家分工是否真的出现了?
WEM 中有 World Expert 和 Ego Expert。一个自然问题是:它们是否真的学到了不同内容?
论文通过可视化分析发现:
Ego Expert 更关注机器人身体和被操作物体;
World Expert 更关注背景结构和稳定场景;
Semantic Head 能较好地定位 World/Ego boundary。

这说明 WEM 的解耦不是形式上的多分支。World Expert 和 Ego Expert 确实在 semantic proxy 的约束下学到了不同的预测责任:一个更偏向维持世界稳定,一个更偏向建模机器人交互。
12 这篇论文在回答什么问题?
这篇工作最重要的地方,并不是提出了一个更复杂的网络结构,而是重新定义了具身世界模型中的预测责任。
过去很多视频世界模型默认采用单流预测:
历史观测 + 指令 → 未来视频。
WEM 则认为,这种形式对长时序具身任务不够。因为它把场景规律、机器人动作、物体交互和任务意图都混在了一条路径里。
WEM 给出的回答是:
World 负责 persistent, instruction-agnostic scene regularities;
Ego 负责 robot-centric, instruction-conditioned dynamics;
World/Ego boundary 需要被显式定义;
disentanglement 需要进入模型结构,而不是停留在概念层面。
一句话:
具身世界模型不能只预测未来,还要知道未来的变化分别由“世界”和“自我”谁来负责。
END
过去,很多视频世界模型更关注一个问题:未来画面是否真实。
但在具身智能里,仅仅“真实”是不够的。机器人需要的是一个能够支撑连续交互的世界模型:前一步生成的状态,必须成为下一步行动的可靠基础。
WEM 的价值就在于,它把这个问题重新拆开了。
哪些变化应该由稳定的 World 来维护?
哪些变化应该由行动中的 Ego 来承担?
当世界模型开始回答这个问题,它就不再只是一个视频生成器,而更接近一个能够理解长期环境演化和机器人交互动态的具身模拟器。
这也许正是 World-Ego Modeling 最值得关注的地方。
