阅读时间大约6分钟（2361字）

2026-05-15 「VLA已死」背后：具身智能真正的难题从未被说清楚

来源：机器人大讲堂

如今到了具身智能，「VLA已死、WAM万岁」。

出品：机器人大讲堂

4月20日，英伟达机器人负责人Jim Fan在红杉AI峰会上说了一句话，随后以「VLA已死」的标题在行业内外刷屏。

这不是第一次，也不会是最后一次。就像自动驾驶行业有过「端到端颠覆规则路线」，语言模型领域有过「大力出奇迹终结了符号主义」，如今到了具身智能，「VLA已死、WAM万岁」。

这句话值得认真对待。但它值得被认真对待的理由，恰恰不是它本身。

01.

一个宣告的结构

Jim Fan真正的意思并不难解读。他参与署名的论文提出DreamZero，用视频扩散模型联合预测未来世界状态与动作，在新任务、新环境的泛化上比VLA基线翻倍提升。

学术上这是有价值的工作。但「VLA已死」不是论文结论，是峰会演讲的修辞。

这两件事的性质截然不同。

演讲修辞需要鲜明的判断，需要冲突感，需要一个旧世界被颠覆的叙事框架。

「传统VLA在物理动作泛化上有结构性缺陷，我们提出了一种新型架构来弥补」，这才是准确的，但它不会成为标题。

问题是，行业已经习惯用这套叙事节奏运转。一个概念崛起，半年到一年的资本追捧，随后出现质疑声，再来一场「旧范式已死」的发布会，下一个概念上位。

VLA本身，就是这么来的。如今它在同样的结构里被宣判。

这个结构的真正代价，是每一次「已死」都在压缩行业对底层问题的注意力。

02.

被混淆的两道坎

理解「VLA已死」这场争论，必须先把具身智能的两件事拆开说清楚。

目前具身智能面对的第一道坎是语义能力，即机器人能否理解「你要它做什么」。

VLA在这里提供了真实的突破，那就是通过视觉-语言模型的预训练迁移，机器人第一次在语义层面具备了开放任务理解的能力。它能听懂「把杯子拿起来放到桌上」，能识别出多种物体，能将任务分解为步骤。这是五年前做不到的事，今天已经相当成熟。

第二道坎是物理能力，即机器人能否真正理解「它要做的动作将如何影响物理世界」。这里包括接触力学、摩擦系数、柔性物体变形、遮挡与恢复、重心与惯性。机器人不是在处理文本，它在与会移动、会反光、会形变的真实物体交互。

VLA的问题，准确说是它在语义层面成功得太顺利，以至于行业跳过了第二道坎的难度。

把视觉-语言模型接上动作头，机器人就能「通用」。这是过去两年里最昂贵的一个误判。并不是VLA错了，而是对它能力边界的预期错了。

世界模型的出现，是行业在补第二道坎的课。

03.

世界模型：下一剂药，不是解药

世界模型的逻辑清晰：让模型在内部预测「如果我这样动，世界会变成什么样」，从而支持更精确的物理推演。

Jim Fan的WAM、Physical Intelligence的π0.7在VLA决策链里嵌入轻量世界模型生成视觉子目标、Genesis的统一具身基础模型，这些工作都在证明一件事：物理预测能力正在被并入下一代机器人大脑的标准配置。

但此刻需要保持清醒的地方也在这里。

目前中国市场上，号称「世界模型」的公司已经超过三十家。做视频生成的，说自己在「生成世界」；做仿真的，说自己在「构建世界」；做合成数据的，说自己在「建模世界」。

世界模型这个词，正在以惊人的速度重复VLA的命运，当一个词，从技术概念，变成融资标签，变成可以往任何方向延伸的筐。

更根本的问题是，世界模型同样有幻觉风险。

一个在像素层面看起来合理、但在物理上完全错误的世界，用来训练机器人的后果，可能比没有世界模型更糟。对象穿模、反重力、边界模糊，在视频生成里是画面瑕疵，在机器人训练里是错误的物理经验。

我始终认为，无论是世界模型还是很多学术概念，到底有没有价值，最终只有一个裁判——让它生成的数据训练出来的机器人，去真实工厂、真实厨房、真实仓库里工作，看成功率和失败分布。其余的，都是叙事。

04.

融合已在发生，但难题从未触底

π0.7其实依然是目前业内最能说明问题的案例。它明确标注自己是VLA，但在决策链里加入了世界模型生成视觉子目标；它的prompt不再只是「把杯子拿起来」，而是包含子任务指令、速度元数据、多视角历史记忆、视觉子目标图像。这不是VLA死亡，这是VLA的架构在容纳更多能力。

Genesis和Generalist AI的路线更激进，他们拒绝被「VLA」或「世界模型」任何一个标签定义，直接训练为物理交互原生的基础模型，把语言理解、状态生成、动作规划和闭环控制放进同一套架构。

这个趋势的方向是清楚的，其让分层能力正在走向统一表征，理解与生成正在走向同一底座。未来的具身大脑，可能叫RFM，可能叫Physical Foundation Model，也可能叫其他营销名词。

但能力层面，视觉语言理解、物理状态预测、动作规划、闭环控制会越来越难拆开单独讨论。

然而有一件事必须说清楚，那就是所有这些融合，都还没有触底具身智能真正的核心难题。

任务泛化、场景泛化、对象泛化，这三道坎彼此独立，却叠加在一起构成了「通用机器人」这道至今无人真正解开的题。

无论是VLA、WAM还是VLOA，在三种泛化上都只解决了局部，而不是整体。尤其是对象泛化，面对从未见过的物体，不同材质、不同形状、不同柔性结构，模型的表现仍然高度不稳定。

这道坎，不会因为换一个范式名字而自动消失。

05.

真正的战场在数据与验证之间

如果要给具身智能今天的真实状态一个最简洁的判断，它本质上不是范式之争，而更趋于我们和很多专家企业家聊出来的结论：这依然是一个数据-验证闭环问题。

模型架构的创新，最终要通过数据来训练，通过真机运行来验证，通过规模化部署来证明。遥操作数据昂贵且有上限，视频数据丰富但物理标注缺乏，仿真数据能覆盖长尾但存在sim-to-real gap。这三类数据各有边界，任何一条单独做到极致，都不够。

行业里最扎实的那些进展，往往不来自架构概念的发布，而来自数据飞轮的转速，因为每周增加多少小时的操作数据，真机失败样本的回收和分析做得有多细，仿真数据进入真机训练后的性能迁移率有多高。

这些数字枯燥，但它们才是具身智能进展的真实刻度。

「泛化」这个词，在今天的讨论里出现得太频繁，以至于它的标准开始模糊。

一个机器人能在三个场景里完成任务，是泛化；在三十个场景里，是更好的泛化；能在陌生工厂里适应一百种未见过的物体，才是趋向通用的泛化。

但这中间的距离，不是换一个模型架构名字能弥合的。

06.

结语与未来

「VLA已死」是一个好标题，但这个行业不需要更多好标题。

我们真正需要的，是对物理世界更诚实的尊重。需要的是大家各自做好手上的事，谈论各自的成果，这才是向上的氛围。

机器人不是聊天机器人，它的每一个动作都要在遵循引力、摩擦、弹性和惯性的真实环境里起效。任何一种「大脑范式」，无论叫VLA、WAM还是VLOA，都要在这个真实世界里赢得信任，而不是在峰会演讲里赢得掌声。

现在争论「VLA已死」还是「VLA进化」，意义不大。更值得持续追问的问题只有一个：哪家公司的机器人，正在以更高的可靠性、更广的场景覆盖、更少的人工干预，在真实环境里稳定运转？有没有真实跑通的落地案例？

答案不会从发布会上飘出来。

${{item.author_display_name}}$

右键可直接复制图片

2026-05-15 「VLA已死」背后：具身智能真正的难题从未被说清楚

纬钛机器人完成新一轮Pre-A轮融资

源策未来完成数亿元种子轮融资

无界动力完成超2亿美元天使轮融资

立项仅8个月，这家机器人公司把"首秀"直接搬进了工厂产线

无界动力完成超2亿美元天使轮融资，加速具身通用大脑与世界模型开发

发改委力推的具身智能中试基地，到底是什么？

2026-05-15 「VLA已死」背后：具身智能真正的难题从未被说清楚

{{item.post_title}}

纬钛机器人完成新一轮Pre-A轮融资

源策未来完成数亿元种子轮融资

无界动力完成超2亿美元天使轮融资

立项仅8个月，这家机器人公司把"首秀"直接搬进了工厂产线

无界动力完成超2亿美元天使轮融资，加速具身通用大脑与世界模型开发

发改委力推的具身智能中试基地，到底是什么？