阅读时间大约6分钟(2361字)
出品:机器人大讲堂
4月20日,英伟达机器人负责人Jim Fan在红杉AI峰会上说了一句话,随后以「VLA已死」的标题在行业内外刷屏。
这不是第一次,也不会是最后一次。就像自动驾驶行业有过「端到端颠覆规则路线」,语言模型领域有过「大力出奇迹终结了符号主义」,如今到了具身智能,「VLA已死、WAM万岁」。
这句话值得认真对待。但它值得被认真对待的理由,恰恰不是它本身。
01.
一个宣告的结构
Jim Fan真正的意思并不难解读。他参与署名的论文提出DreamZero,用视频扩散模型联合预测未来世界状态与动作,在新任务、新环境的泛化上比VLA基线翻倍提升。
学术上这是有价值的工作。但「VLA已死」不是论文结论,是峰会演讲的修辞。
这两件事的性质截然不同。

演讲修辞需要鲜明的判断,需要冲突感,需要一个旧世界被颠覆的叙事框架。
「传统VLA在物理动作泛化上有结构性缺陷,我们提出了一种新型架构来弥补」,这才是准确的,但它不会成为标题。
问题是,行业已经习惯用这套叙事节奏运转。一个概念崛起,半年到一年的资本追捧,随后出现质疑声,再来一场「旧范式已死」的发布会,下一个概念上位。
VLA本身,就是这么来的。如今它在同样的结构里被宣判。
这个结构的真正代价,是每一次「已死」都在压缩行业对底层问题的注意力。
02.
被混淆的两道坎
理解「VLA已死」这场争论,必须先把具身智能的两件事拆开说清楚。
目前具身智能面对的第一道坎是语义能力,即机器人能否理解「你要它做什么」。
VLA在这里提供了真实的突破,那就是通过视觉-语言模型的预训练迁移,机器人第一次在语义层面具备了开放任务理解的能力。它能听懂「把杯子拿起来放到桌上」,能识别出多种物体,能将任务分解为步骤。这是五年前做不到的事,今天已经相当成熟。
第二道坎是物理能力,即机器人能否真正理解「它要做的动作将如何影响物理世界」。这里包括接触力学、摩擦系数、柔性物体变形、遮挡与恢复、重心与惯性。机器人不是在处理文本,它在与会移动、会反光、会形变的真实物体交互。
VLA的问题,准确说是它在语义层面成功得太顺利,以至于行业跳过了第二道坎的难度。
把视觉-语言模型接上动作头,机器人就能「通用」。这是过去两年里最昂贵的一个误判。并不是VLA错了,而是对它能力边界的预期错了。
世界模型的出现,是行业在补第二道坎的课。
03.
世界模型:下一剂药,不是解药
世界模型的逻辑清晰:让模型在内部预测「如果我这样动,世界会变成什么样」,从而支持更精确的物理推演。
Jim Fan的WAM、Physical Intelligence的π0.7在VLA决策链里嵌入轻量世界模型生成视觉子目标、Genesis的统一具身基础模型,这些工作都在证明一件事:物理预测能力正在被并入下一代机器人大脑的标准配置。
但此刻需要保持清醒的地方也在这里。
目前中国市场上,号称「世界模型」的公司已经超过三十家。做视频生成的,说自己在「生成世界」;做仿真的,说自己在「构建世界」;做合成数据的,说自己在「建模世界」。
世界模型这个词,正在以惊人的速度重复VLA的命运,当一个词,从技术概念,变成融资标签,变成可以往任何方向延伸的筐。
更根本的问题是,世界模型同样有幻觉风险。
一个在像素层面看起来合理、但在物理上完全错误的世界,用来训练机器人的后果,可能比没有世界模型更糟。对象穿模、反重力、边界模糊,在视频生成里是画面瑕疵,在机器人训练里是错误的物理经验。
我始终认为,无论是世界模型还是很多学术概念,到底有没有价值,最终只有一个裁判——让它生成的数据训练出来的机器人,去真实工厂、真实厨房、真实仓库里工作,看成功率和失败分布。其余的,都是叙事。
04.
融合已在发生,但难题从未触底
π0.7其实依然是目前业内最能说明问题的案例。它明确标注自己是VLA,但在决策链里加入了世界模型生成视觉子目标;它的prompt不再只是「把杯子拿起来」,而是包含子任务指令、速度元数据、多视角历史记忆、视觉子目标图像。这不是VLA死亡,这是VLA的架构在容纳更多能力。
Genesis和Generalist AI的路线更激进,他们拒绝被「VLA」或「世界模型」任何一个标签定义,直接训练为物理交互原生的基础模型,把语言理解、状态生成、动作规划和闭环控制放进同一套架构。
这个趋势的方向是清楚的,其让分层能力正在走向统一表征,理解与生成正在走向同一底座。未来的具身大脑,可能叫RFM,可能叫Physical Foundation Model,也可能叫其他营销名词。
但能力层面,视觉语言理解、物理状态预测、动作规划、闭环控制会越来越难拆开单独讨论。

然而有一件事必须说清楚,那就是所有这些融合,都还没有触底具身智能真正的核心难题。
任务泛化、场景泛化、对象泛化,这三道坎彼此独立,却叠加在一起构成了「通用机器人」这道至今无人真正解开的题。
无论是VLA、WAM还是VLOA,在三种泛化上都只解决了局部,而不是整体。尤其是对象泛化,面对从未见过的物体,不同材质、不同形状、不同柔性结构,模型的表现仍然高度不稳定。
这道坎,不会因为换一个范式名字而自动消失。
05.
真正的战场在数据与验证之间
如果要给具身智能今天的真实状态一个最简洁的判断,它本质上不是范式之争,而更趋于我们和很多专家企业家聊出来的结论:这依然是一个数据-验证闭环问题。
模型架构的创新,最终要通过数据来训练,通过真机运行来验证,通过规模化部署来证明。遥操作数据昂贵且有上限,视频数据丰富但物理标注缺乏,仿真数据能覆盖长尾但存在sim-to-real gap。这三类数据各有边界,任何一条单独做到极致,都不够。
行业里最扎实的那些进展,往往不来自架构概念的发布,而来自数据飞轮的转速,因为每周增加多少小时的操作数据,真机失败样本的回收和分析做得有多细,仿真数据进入真机训练后的性能迁移率有多高。
这些数字枯燥,但它们才是具身智能进展的真实刻度。
「泛化」这个词,在今天的讨论里出现得太频繁,以至于它的标准开始模糊。
一个机器人能在三个场景里完成任务,是泛化;在三十个场景里,是更好的泛化;能在陌生工厂里适应一百种未见过的物体,才是趋向通用的泛化。
但这中间的距离,不是换一个模型架构名字能弥合的。
06.
结语与未来
「VLA已死」是一个好标题,但这个行业不需要更多好标题。
我们真正需要的,是对物理世界更诚实的尊重。需要的是大家各自做好手上的事,谈论各自的成果,这才是向上的氛围。
机器人不是聊天机器人,它的每一个动作都要在遵循引力、摩擦、弹性和惯性的真实环境里起效。任何一种「大脑范式」,无论叫VLA、WAM还是VLOA,都要在这个真实世界里赢得信任,而不是在峰会演讲里赢得掌声。
现在争论「VLA已死」还是「VLA进化」,意义不大。更值得持续追问的问题只有一个:哪家公司的机器人,正在以更高的可靠性、更广的场景覆盖、更少的人工干预,在真实环境里稳定运转?有没有真实跑通的落地案例?
答案不会从发布会上飘出来。
