世界模型来了因果技术标杆!具身大脑真要长脑子了
统计 阅读时间大约9分钟(3405字)

8小时前 世界模型来了因果技术标杆!具身大脑真要长脑子了

来源:豆包
让AI真正理解“为什么”

出品:量子位

具身智能正在经历一场普遍的“水土不服”。

很多人发现,在模拟环境里表现优异的机器人,一旦进入真实工厂,往往立刻失灵。这是行业内最尴尬的现状,也是整个具身赛道最核心的瓶颈:泛化能力。

换一个环境,可能就要重新采数据、重新训练、重新交付。机器人学的始终是特定场景下的“经验”,而非现象背后的“规律”。

在这一背景下,为了让机器真正理解物理世界,构建“世界模型”逐渐成了具身大脑近年来最拥挤的赛道,各式技术路线层出不穷。

最近,有一家成立不久的公司——Aether AI,宣布完成2000万美元种子轮融资,由经纬创投领投,英诺基金、SWC Global、九合创投参投。它的路线在业内几乎是独一份:不做视频生成,不做3D重建,也不做JEPA,而是走了一条少有人走的路:因果世界模型。

这家公司认为,如今的主流大模型,本质上都是基于数据表层的相关性,而非底层的因果性,这在物理世界可能行不通。

简单来说,它的因果世界模型想让机器人像人类一样,真正理解背后的机制和“为什么”,而不仅仅是推测“接下来最可能发生什么”。

如果将LLM、VLA、视频生成模型等技术路线比作拼体格的相扑选手,力量来自更大的算力、参数和数据,因果世界模型更像是在练内功,通过底层的理论突破,试图用更少的数据实现更强的泛化,“四两拨千斤”。

都叫世界模型,但彼此并不一样

先厘清一个问题:都以“世界模型”命名,因果世界模型和其它世界模型有什么区别?

Aether AI创始人、加州大学圣地亚哥分校(UCSD)助理教授黄碧薇,将当前行业内主流世界模型分为三条路线:

视频生成路线:像素级渲染效果确实惊艳,但问题在于它拟合的只是画面的表层相关性。画面看上去合理,不代表物理上可行。一个杯子可以凭空穿过桌面,只要像素过渡平滑,模型就不会觉得有什么不对。这种路线做视频可以,做精准控制不行。

3D生成路线:空间结构还原得很好,但它本质上是一个静态的世界快照。时间维度上的动力学、因果交互,这一块基本是缺失的。知道物体在哪,不等于知道它会怎么动、为什么动。

JEPA路线:去掉像素解码器,在隐空间做状态转移,思路很巧妙。但它没有显式地去拆解因果变量和结构,像摩擦力、接触力这类精细交互信息,很容易在抽象过程中被丢失。

b68daa71a8db0ff109659c0193262c03.png

这些技术路线都在回答同一个问题:AI如何建立对现实世界的内部表征。但黄碧薇追问的是更底层的那个问题:物理世界为什么这样演化?

从这个角度看,因果世界模型是第四条路线,侧重在隐空间显式学习因果变量、结构、动力学,掌握底层物理规律。它关心的不只是“下一步最可能发生什么”,还有“是什么导致了下一步的发生”。

在黄碧薇看来,因果世界模型才是世界模型的“终局形态”,是实现物理AGI的最优技术路线。

进一步拆开来看,因果世界模型包含三大核心要素:

第一,因果变量提取。从像素、传感器这些原始数据里,拆出真正独立的因果特征——物体的形状、速度、角速度、摩擦力系数、表面粗糙度等等,这些变量是物理交互的基本单元。

第二,因果结构学习。建模不同变量之间的影响关系。手施加的力、角度、速度,如何共同决定抓取的成功率?这里没有”端到端”的黑箱,结构是显式的,可解释的。

第三,因果动力学建模。学习系统统随时间、动作的状态转移规律,这不是在拟合轨迹,而是在学习支配轨迹的规则,预测不同动作下下一时刻的世界状态。

从完整的系统层面,Aether AI有四层架构:底层依然是Transformer——没有重新发明轮子,因果并不排斥Transformer;中间层是因果世界模型和模块化架构(类似MoE);最顶层是Agent系统。

这套架构被称为“因果AI全栈架构”,从Transformer到Agent,需要注意的是,它不是给现有模型加因果“插件”,而是从Transformer到Agent系统,全部由因果思维驱动。

c51ffc79a14800ba83607f90b2970eba.png

还有一点很关键:相较于VLA、WAM等其它模型,因果世界模型对数据几乎没有额外的要求。

Aether AI约80%数据使用的是模拟、第一视角和公开视频数据,约20%使用遥操数据完成“最后一公里”。

面对同样的数据,因果模型能从中提取出相关性模型读不出来的深层信息。

实现这一点,靠的是因果世界模型背后的数学和统计理论,这恰恰也是其技术门槛所在。

从“找规律”到“懂原理”

为什么非做因果不可?

熟悉AI的人都知道,过去几年,LLM的成功让行业形成了一种朴素信仰:大力出奇迹,数据、算力、参数堆上去,智能就会涌现。

这套逻辑在语言世界确实奏效。原因很简单:人类文明几千年的知识已经被压缩成了文字,模型只需要把语义表层的关联学到极致,就足以显得“智能”。

但物理世界不提供这种便利。

摩擦力、遮挡、角度、速度……每一项都可能改变机器人的行为结果,这些变量之间的关系,光靠“看数据”是学不出来的。

79e628571f7b36dd625592fab42baa1c.png

统计学里有一个著名的辛普森悖论:在肾结石治疗案例中,如果忽略结石大小这个隐变量,同一份数据甚至会得出完全相反的结论。只看相关性,不看隐藏的成因,结论可以直接翻过来。

机器人面临的是同样的处境。物理世界遍布隐变量。VLA也好,WAM也好,全都有这个盲区。

在黄碧薇看来,LLM、VLA、WAM、视频生成模型都属于“相关性模型”。它们的共同特征是:擅长捕捉数据中的规律和相关性,但不理解数据生成的底层机制。

具体来说,相关性模型存在三个明显的局限性:

第一,数据永远不够。语言可以被离散化为有限词汇,但机器人面对的是连续的状态空间和动作空间。物理世界的变量组合几乎是无限的,而且每一次动作都会改变下一时刻的数据分布——这和数据独立的机器学习假设完全冲突。

第二,场景永远覆盖不全。泛化性上不去,机器人就永远被困在实验室和精心布置的demo里。每换一个场景就得重来一遍,这本质上说明模型没有学到真正通用的东西。

第三,物理世界需要干预,而不只是预测。语言模型输出一个错误答案,世界不会因此改变。但机器人输出一个错误的动作,物理世界就被不可逆地改写了。被动地“猜下一个token”在语言上行得通,在物理上行不通。

所以,Aether AI的判断是,物理AI的答案并非“相关性大模型”,而是“因果性大模型”。

当然,这个判断有坚实的理论基础。

图灵奖得主Judea Pearl提出的“因果之梯”理论,把AI对世界的理解与推理能力划分为由低到高的三个层级:关联、干预、反事实。

今天的相关性模型只到了第一层。

举个典型的例子。数据告诉我们,冰淇淋卖得越多,鲨鱼攻击事件也越多。对于这件事,是冰淇淋导致事故?还是背后有一个隐藏的混杂变量同时影响了两者?相关性模型无法回答。

实际上,冰淇淋和鲨鱼攻击之间没有因果关系,它们只是被同一个东西驱动——天气热。AI也是一样的。如果AI只学数据里的相关性,它会得出很多看起来很聪明、实际上是错的结论。这就是为什么我们需要因果。

b085fb18fd837ec17204c97c483370c0.png

因果性模型可以做到第二层和第三层,干预,是理解“如果我做这个动作,会发生什么”。反事实,是想象“如果当初没有做这个动作,会怎样”。

机器人一旦具备这种因果理解,泛化就变成了一个自然的结果。它理解的不是在这个场景这么做会成功,而是这个动作通过什么机制导致了那个结果。

机制不变,场景怎么变都能应对,就像被打通了任督二脉,长程任务执行能力也更出色。

Aether AI的内部数据验证了这一点。在机器人操作任务上,因果世界模型相比传统世界模型实现了25%-50%的成功率提升,以及5到10倍的样本效率提升。在一些案例中,仅用50条高质量的数据,就能让此前频繁失败的任务达到可靠的成功率。

黄碧薇称,懂因果的模型,用20%的数据就能达到相关性模型100%数据的效果。

AI范式变革可能真的要来了

回到Aether AI这家公司,他们的野心不止于做一家机器人公司。

黄碧薇说:“OpenAI开创了LLM范式,我们要开创以因果世界模型为核心的下一代范式。”

这听起来像是创业公司的标准叙事,但她背后的学术脉络让这件事有了不一样的分量。

黄碧薇的因果研究始于德国马普所,至今整整十三年。她的导师名单包括了因果发现奠基人Clark Glymour,以及第二代核心推动者Bernhard Schölkopf和Kun Zhang。几十年来,三代因果发现学术成果的传承,在这一刻汇聚到了一个创业项目上。

黄碧薇把AI的发展划分为四个范式:相关性小模型→因果性小模型→相关性大模型→因果性大模型。

现在整个行业站在第三个范式上。Aether AI想把它推到第四个。

那么,为什么这件事,偏偏是Aether AI来做?

毫不夸张地说,在AI领域,因果学派一直处于“困难模式”。它对数学和统计的要求极高,真正深入这个领域的研究者极少。同时懂因果理论和工程落地的人,更是少之又少,和深度学习从业者完全不在一个量级。

这正是Aether AI最深的护城河。不是数据,不是算力,而是人——以及这些人背后多年的学术积淀。

从行业视角来看,VLA发展了几年后,泛化性和数据的天花板已经实实在在地摆在眼前,市场对新路线有了真实的需求。因果理论在机器人场景的核心难题上也基本有了解法。再加上大模型工程能力和训练基础设施已经成熟,具身数据开始形成规模,成本在快速下降。

在这样的背景下,Aether AI给自己定的目标不算保守:预期明年机器人具备较强泛化和长程任务能力;明年晚些时候,结合locomotion和manipulation,让机器人在开放环境里既能走动又能完成操作任务;未来更进一步,让机器人走向开放环境中的移动、操作和持续学习。

此次Aether AI融的是种子轮,通常代表从0到1的起步。对于资本而言,成熟路线拼执行,非共识路线赌范式。后者一旦成功,就是颠覆性的成果,而市场选择了Aether AI,就是押注了后者。

对Aether AI来说,真正的分水岭只有一个:能不能把因果基础模型从理论优势,转化为机器人可量化的泛化能力、长程任务能力和数据效率——形成足够厚、足够深的商业壁垒,直到范式切换。

眼下各种具身大脑的技术路线都朝着“物理AI”这个终点狂奔,谁更接近目标,远没有答案。但在一个大家争相模仿的技术语境里,有人从根上重新问了一遍“智能到底是什么”,这本身已经构成了一个值得被认真对待的信号。

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×