阅读时间大约10分钟以上（5877字）

4小时前 2026年了，我们还在用爱迪生试灯丝的方式评估世界模型

来源：钛媒体创投家

世界模型的终局，可能是一场关于压缩比的效率竞争。

出品：钛媒体创投家

上个月，五源信号站5Hz 第一期活动还在讨论Sora的“死亡”意味着什么。而在今天，多模态几乎从AI热点方向的语境中消失，World model成为最受关注的下一个战场：不仅是学术界在密集发论文，工业界也在真机上做验证，投资人则在追问：这条赛道到底有没有Scaling Law？

World Model的三种"未来"——生成派、JEPA 派、空间智能派，押的不是同一个 AGI。它们的终局，可能是一场关于压缩比的效率竞争。

以下内容，是对五源信号站5Hz 第二期活动内容的提炼整理。

如何严肃界定World Model

1. World model 这个词在具身领域存在大量混用。一种比较严格的区分方式是看它是不是真的 action-conditioned（动作条件化）：如果只是把 video prediction（视频预测）作为一个辅助 loss，加到 action 学习里面，让模型在预测 action 的同时，顺带预测接下来一段时间的视频画面，那它的输入并不是真正的 action-conditioned，只是在用 video prediction 增强表征能力。

另一种更原教旨主义的定义是：world model一定要能输入 action ——比如机器人接下来往左动、往上移，这个世界会怎么变化；或者游戏里键盘的W/A/S/D指令会让世界怎么变化。只有接受 action 输入并预测状态变化的，才应该叫 action-conditioned world model 。

2. 但与其争论“到底什么是 world model"，不如先回答一个更根本的问题：你希望用 world model 去做什么样的事情？目的倒过来定义了模型，倒过来定义了技术路线，也最终决定了 benchmark 。

在具身场景中，最核心的追求是希望 world model 能够直接出决策、直接在现实世界中行动。它和VLA这类直接行动范式的区别在于：行动前多了一层关于世界的想象——我这么动了之后，世界会发生什么变化？这种 multi-step reasoning ability（多步推理能力），才是 world model 真正区别于其他模型的核心。

3. World model 并不只属于具身智能。如果把视角拉远，AlphaGo 里面的 value network（价值网络），本质上也是一种 world model ，你有一个 action 进来，它对棋盘状态产生 disturbance（扰动），然后 predict 下一步会怎么样，再给你打分。

生物领域的虚拟细胞也是 world model ，你给了一种药，它对人体细胞层面会产生什么影响？自动驾驶里的仿真系统也是，它是 deterministic（确定性的）的、不是 generative（生成式）的，但它就是对那个世界的 prediction。区别只在于，传统仿真系统的泛化能力太有限，它能做的事情是设计者想到了所有东西才能设计出来的 prediction。

而今天我们希望 world model 真正能 capture world ，而不是只被设计者自己脑中的思考边界所限制。从这个视角来看，world model 实际上是从 “确定性”走向 “概率性” 的一个跃迁，我们希望它能建模那些连设计者自己都没预想到的未来。

4. 最终，world model 的严肃界定，可以收敛到一个公式：一个 predictor（预测器），预测状态 S 到 S' 在 action 条件下的变化。

剩下的一切分歧，本质上是三个问题的不同回答：什么是 state？ predictor 怎么设计？ action 怎么表达？ State 可以是像素、可以是 latent 、可以是3D几何、可以是细胞里的一组分子状态。Action 可以是机器人末端的位姿、可以是键盘的W/A/S/D、可以 latent action、甚至可以是一句自然语言指令。

这三者的不同组合方式，就决定了不同的技术路线和应用场景。

Morgan Stanley 近期的研报中也给出了一个类似的通俗定义：world model 本质上是一个"想象力引擎"（imagination engine），它可以模拟当前世界状态，在假设条件下向前推演，并将模拟结果暴露给 Agent 或人类去使用。（Morgan Stanley Research, World Models: AI's Journey from Digital to Physical）

Language model 站在了碳基生命的肩膀上——碳基生命完成的任务是抽象、表征、理解，language model 建立在这个之上。如果 language model 是"有了语言之后的智能"，那 world model 要做的，是代替整个生命完成对世界中声、光、电这些信号的总结。

5. World model 的终极形态可能是一种 world intelligence ：它跟语言推理、下棋、搜索是不同类型的智能。人类把触觉、听觉、嗅觉、视觉最终都变成了文字，文字对人类来说是好的 state，但对机器人来说未必。一个真正具备world intelligence 的系统，需要为五感信号找到更好的 representation space（表征空间，即模型对世界的内部抽象），而不是把一切都转化为文字。这也是为什么 representation（表征）可能是 world model 今天最难、最核心的问题。

三条技术路线，各押不同的AGI

6. 当前 world model 可以粗略地分为四条技术路线。它们背后押注的核心假设不同，擅长的东西不同，命门也不同。

第一派是生成模型，以 Sora 或类 Sora 为代表，也包括 Genie 和 Decart。这一派的前身是 Midjourney、Stable Diffusion 这类图像生成产品，从 image 自然延伸到 video 。但早期 video generation model 本质上更像是image 的线性外推，生成出来的东西可能是一个人做一些轻微动作，画面很漂亮，但缺乏长程逻辑。它们的需求是画质和美学，是 text following（文本跟随）能力，这和今天 world model 需要的抽象与逻辑是完全不同的需求层面。 Genie 和 Decart 尝试给其中融入了 autoregressive 成分，让秒与秒之间有串联，但从效果来看，当时间尺度从秒级拉到小时级的时候，这些模型依旧很弱。

第二派是 JEPA（Joint Embedding Predictive Architecture），由 Yann LeCun 提出并推动。JEPA 的核心方法论是在 latent space（隐空间）做压缩和抽象：它不试图去预测每一个像素，而是预测一个更高层次的表征representation，在这个 representation 里面摒弃掉无关紧要的噪音，只保留对理解世界变化真正重要的信息。

从方法论层面来说，这个目标非常值得欣赏。但具体的 method，对比学习和mask model（掩码模型）的融合，在实践中的效果尚不令人满意。从 Meta 和 LeCun 自己出来讲的时候对这个具体路线的着墨来看，他们内部可能也在重新思考这条路。LeCun 已离开 Meta 创立 AMI Labs ，拿了10亿美金想要去做这个方向的 scaling ，但结果如何还需要时间验证。

第三派是空间智能，以 World Labs 为代表，从 3D 几何出发。这一派的思路是先做好 XYZ，先把三维空间建模做好，也许未来再加入时间 T 变成 XYZt。但今天还没有把时间引入，这使得它在时间建模上处于最初级的阶段。

而 world model 有一个不变的核心，它总是在建模时间上的 transition（状态转移）。不管输入是什么、action 在输入还是输出，时间 t 是那个最底层的维度。其他路线已经在做 XYT（视频）或 XYD（带深度信息的视频），World Labs 还在 XYZ，所以它必须思考 T 怎么引入。当然，这一派在落地上可能有优势，比如做 mesh（三维网格）生成、做 3D 资产，这些不需要时间维度也能产生价值。

7. 真正在车上验证过的是第一派，第二派（JEPA latent rollout）在理论上有上限优势，但还没做出来。在一段式端到端的自动驾驶范式下，第一条路线，即生成式 co-training（协同训练），已经被验证是 work 的：训练阶段把 video prediction 加进去做 co-training，来增强 backbone （主干网络）的表征能力，但推理阶段把 video generation 部分砍掉，以满足实时性要求。JEPA 的 latent rollout （在隐空间做推演）在理论上限上可能更好，如果能把所有表征都拉到隐空间做长程 rollout ，对长程任务有非常大的潜力。但在实践中，还没有人做出跟第一条路线一样好或更好的效果。

8. 有一位研究员说了一个比较激进的观点：“ JEPA 是所有人都认为正确、但没有一个人能做出来的一场幻梦。” V-JEPA World Model 最新发布的最好的 paper，最终只做到了 Push-T 这种用 MLP 就能跑通的小任务。而 Veo 3的团队，被问到是怎么做出这么好的效果时，回答只有两个字： diffusion （扩散模型）加 scaling 。

与此同时，视频生成领域也在发生架构变动：据讨论中提及的非公开传闻， Veo 3 的多模态联合生成团队，可能已经拆分并入了 Omni team，Sora 2 也在公开尝试把 AR 和 diffusion 混在一起。但这些都更像是 multi-modal generation model（多模态生成模型），距离真正的 world model 还有很大距离。

再精美的画面，it doesn't mean anything。我们真正想要的是：我把杯子推倒，它会倒到我身上，我会跳起来、会破防，所以从结果来倒推，我不能做这么没素质的事。这种长程因果推理，才是 world model 和 video generation 的本质分水岭。

9. 如果把三条路线放在一起看，world model 本质上是一场效率的比较。假设我们有无限大的模型、无限多的数据、全地球的电力都用来跑 world model，那任何一条路线都能 scaling 出一个无敌的世界模型，但问题是我们没有这么多资源。

在机器人层面，末端最多部署一个7B的模型，延迟要求50-100毫秒。在这个约束下，架构范式的核心问题就是：谁的压缩比更高？谁能用更少的参数、更少的计算量，压进更多关于物理世界的知识？符合 Bitter Lesson 的那条路线，最终会在这场效率竞争中胜出。

世界模型的推理成本目前确实很高。据 The Information 报道， Odyssey 运行其世界模型每用户需要一整张 H200 芯片，成本为数美元/小时，而运行一个 70B 文本模型只需几美分/小时。MoE Capital 的综述同样指出，Genie 3 的运行成本大约在 100 美元/小时。这些数字让"压缩比"这个问题变得格外紧迫。

10. 这几条路线未必是在同一个赛道里竞争。更可能的情况是它们在应用场景上逐渐分化：3D路线最后可能去做游戏引擎和数字资产；生成式模型可能更适合做内容创作；而对物理世界表达要求最严格的机器人场景，可能需要一种特殊的混合架构——比如一个20B的 encoder （编码器）加上一个5B的 predictor 。

一种更本质的理解方式是： world model 是梦境， policy 是策略， agent 是做梦的人。做梦的人行动，梦境回应；梦境回应，做梦的人再行动。而 action 是绕过传统仿真计算成本的"作弊码"，在传统引擎中，模拟成本会随物体数量和互动复杂度急剧上升，场景越复杂引擎越慢；但 world model 在训练时，就把世界的运行模式吸收进了权重里，推理变成一次固定成本的前向传播，场景再复杂也不会让 engine 急剧变慢。

Benchmark：评估世界模型为什么比评估LLM难得多

11. 语言模型的 benchmark 形态相对单一，做好 next token prediction， few-shot 的事就解决了。但 world model 的任务形态天然更复杂：state 是多模态的、action 是异构的、时间尺度跨越从毫秒到分钟，这使得 few-shot在 world model 里比在 language model 里要难走得多，评估它的 benchmark 也相应地复杂很多。

12. 当前具身 benchmark 的设计存在两个典型问题：要么任务设计"反人类"：比如让机器人用单臂去踢足球，这并不反映任何真实操作需求；要么一旦任务设计得真实（比如让机器人在家庭场景里完成长时序指令），所有前沿模型的成功率最高也只有22%左右，包括 Dreamer Zero 和 π0.5 。在这种"大家都一塌糊涂"的情况下， benchmark 失去了区分优劣的能力。一个好的 benchmark（比如Mandarin）应该偏向人类常见操作，而不是为了为难机器人而设计，也不应该为了拍好看的 demo 而只做最简单的 pick and place 。

13. 从评测技术的角度来看，当前评估世界模型有三个主要方向，每个方向都有自己的 gap：让 VLM 直接做理解（但 VLM 观察不到细节形变和微妙的物理量变化），用潜空间模型（如 JEPA）做 latent 距离计算即“ surprise 值”（但 latent 本身没有解释性），用像素级追踪（如 CoTracker）做运动分析（但会被视角变化和光线干扰严重影响）。这三种方式单独拿出来都不够，需要组合成一个 Agent 系统来综合评测。但这样的系统目前还不存在。

14. 长时间 rollout 不崩溃是一个关键的评估维度。如果世界模型能支撑分钟级的自主 rollout 而不崩溃，它就可以充当一个安全的 simulation （仿真）环境，替代真机 RL。这意味着可以像大语言模型做 RL 那样，大规模并行地在 world model 里跑强化学习，用 compute 换 simulation。但这又是一个鸡生蛋的问题：要让 world model 不崩溃，你需要大量 corner case（长尾边角情况）的数据（比如杯子掉地上碎了之后怎么办、桌子被撞烂了会怎样），这种数据在正常操作中极其稀少。

要收集这种数据，可能需要大量机器人先被部署到现实世界中去 rollout ，但大规模部署在商业上又不现实。在自动驾驶领域，这类长尾数据的采集要容易得多，量产车天然就是数据采集器，影子模式已经玩得很成熟。但对人形机器人或轮式机器人来说，这个矛盾短期内很难解开。

在本场讨论中，有一个尖锐的类比：明明我们在试图 scaling 出 AGI level 的super-intelligent，但我们在用300年前爱迪生造灯泡的方法去 evaluate ——每天换一种灯丝，换了三年终于发现钨最好。训模型的时候总共就三个事情：什么是 data、做什么模型、最后就是怎么 benchmark 。而 benchmark 的效能直接决定了迭代速度的上限。

15. 一个可能的破局思路是游戏化 benchmark 。益智游戏天然具有数学性的难度梯度——迷宫的复杂度随层级指数上升，汉诺塔可以解到5层、10层、1亿层，你永远有无限的OOD（out-of-distribution）样本。这种设计不依赖准确率（你不需要99.9%的成功率来标定一个模型），而是通过"你能闯到多少关"来衡量能力等级，就像语言模型里数学题所扮演的角色一样：一个有天然梯度的黄金 playground。如果 world model 的 benchmark 可以从准确率转向闯关式的能力等级衡量，那模型迭代的效率会被大幅加速。

16. 从test-time scaling（推理时算力扩展）的角度来看，world model 是否存在类似语言模型o1那样的"多想一会就做得更准"的特性？一种直觉是：如果给模型更多 test-time compute，比如 rollout 100 次再选最优结果，效果应该会提升。实际实验也验证了这一点：用 video generation model 加多模态大模型做 generation 100次，然后选质量最好的，效果确实有提升。但关键瓶颈在 critic model（评判模型）上：你 test-time scaling 完之后，怎么判断哪个 rollout 是最好的？前置条件还不成熟，我们能生成一个人平静地走10分钟的视频，但还做不到让这个人走在路上遇到突发情况、发生一系列连锁反应的多变化节点生成。

17. 不过，从具身的角度来看，有一种隐性的 test-time scaling 已经在发生。机器人有一个跟语言模型本质不同的特性：无论你在某一步输出的 action 是对还是错，真实世界都会给你返回一个一定是真实的观测（因为你有摄像头）。这意味着机器人 context 里存的所有 history 都是这个世界真实发生过的事情。

带 memory/history 的模型可以利用这一点来补充 partial observation（部分观测）的信息量。一个经典的例子是开冰箱：如果用不带 memory 的 VLA，它每次都会去试开右边的门，因为它不知道自己上次已经试过了打不开。但如果模型有 history，它知道“OK，我开右边的门打不开了"，就会去试左边。

这种通过行动探索来补充信息量的过程，本质上就是一种 test-time scaling，你多花了一些时间去探索，但你解决了 partial observation 的问题。很多时候 VLA 做不到的事情，不是因为模型能力不够，而是因为信息量不够。Memory 模式正在成为缓解这个问题的关键范式。

数据而非模型，驱动具身进展

18. 什么事情发生了，关于 world model 的讨论就可以结束？一个比较明确的答案是：真正的 zero-shot（零样本）或 few-shot 机器人。今天所有自称"通用机器人模型"的系统，大概率都是 overfit （过拟合）的：你要在一个具体的本体上，完成一个具体任务，一定需要这个本体特有的数据和场景。如果有一天，来了一个全新的本体，只需要做几个 few-shot 示范，模型就能自动推导出，在这个本体上应该怎么操作、完成 unseen task（未见过的新任务），那就是机器人的 GPT-3 moment。GPT-3 的paper标题就是 "Language Models as Few-Shot Learners"，不需要再训练、不需要 fine-tune（微调），直接在 unseen task 上做 few-shot ，这是语言模型最关键的能力跃迁。

今天在 world model 领域，已经观察到了一些 few-shot 的性质，但这些 few-shot性质所覆盖的任务，还未必是最具价值的那些。而且world model的few-shot，比语言模型的 few-shot 天然更难，语言模型的 task 只有文本一种形态，做好 next token prediction 就行； world model 需要同时泛化到predict next state、predict next action、以及 state-action 的各种组合， task 形态天然更复杂。

19. 回顾具身智能的进展历史，每一次跃进几乎都是由数据驱动的，而非模型驱动的。从通过遥操收集数据训练 large behavior model ，到 RT-X 等项目汇聚多构型机器人数据，到 Physical Intelligence 大规模采集真实数据推动π0.5的出现，到UMI等无本体采集方式让数据量级提升10-100倍，再到 Ego-View 异构数据的兴起，英伟达 EgoScale 等工作验证了关键的 Scaling Law ，证明第一视角的人类活动数据可以大幅扩充具身的数据量。每一次跃进的背后，都是数据范式的突破而非模型架构的创新。

20.Ego-View 可能是通往真正泛化的关键一步，甚至可能是唯一一条可行的路。逻辑很简单：把人当成另一种类型的机器人，在人身上装传感器，大规模采集人类在真实环境中与物理世界互动的数据。但目前最大的 Ego-View 数据集也只有10万小时量级，距离百万、千万、上亿小时还有很远的距离。如果Ego-View 这条路走不通，很难想象具身还有什么别的路可以通往真正的泛化。

LeCun 曾指出过一个类似的矛盾：我们的 AI 在某些方向上已经和通过律师资格考试的律师一样聪明，但它做不到一只猫能做的事。语言模型的成功建立在碳基生命已经完成了"抽象"这个任务的基础上，而 world model 要从零开始学习物理世界的运行规律，这个任务的难度要大得多。

21. 今年大概率还不会出现 world model 的分水岭。异构数据的采集仍需要时间，而且 diversity 比 quantity 更重要，单纯堆量而缺乏场景和人类 pattern 的多样性，意义有限。但趋势是积极的：除了 VLA 之外，机器人领域正在出现更多的技术路线可以选择走，world model 就是其中一条。当不同路线在不同场景中逐渐分化、各自找到自己的位置， world model 这个看似模糊的大概念，才会真正落地为一组具体的、可迭代的、有 Scaling Law 的工程实践。

22. 讨论的最后，有朋友抛出了一个刘慈欣“朝闻道”式的问题：如果有上帝能回答你一个问题，你最想知道什么？有人说，想知道 world model 到底能不能真正反映物理意义上的交互，比如不同力度去抓不同软硬度的物体，它能不能预测出对应的形变？如果做不到，那 world model 做 simulator 和传统物理引擎做仿真相比，到底谁更接近真实物理？也有人说，想知道 Ego-View 数据 scale 到上亿小时之后，具身是不是真的能涌现出泛化能力，如果这条路走不通，可能就没有别的路了。

“如果有‘上帝’能回答你一个问题，你最想知道什么？”——这个问题本身就是这场讨论最好的注脚。 World model 今天还远没有标准答案。

我们离让机器真正理解这个世界，还差几个数量级的数据、几个数量级的压缩比、以及几个我们现在还无法想象的范式级突破。但至少，路已经不止一条了。