VLA困局,世界模型破局:具身智能模型路线的真实战场
统计 阅读时间大约9分钟(3309字)

4小时前 VLA困局,世界模型破局:具身智能模型路线的真实战场

来源:豆包
关于数据与模型的答案

作者:Lvy     出品:高工机器人

2026年,具身智能行业对软件和模型的重视不言而喻。以至于前段时间,英伟达机器人一号位Jim Fan说出“VLA已死,WAM万岁”时,整个行业都感到慌张。

但别急着把它当作结论,它更像一个判断,一种信号:在数据和模型这件事上,具身智能接受所有观点,也保留着巨大的试错空间。

这才是新行业的趣味所在。

5月18日至19日,高工人形机器人、高工咨询举办了2026(第三届)高工人形机器人技术应用峰会,以“当具身智能开始冲入现实”为主题。

作为一天半议程的开场,我们直奔当下具身智能行业最核心的议题:在当下最受关注的数据与模型环节,具身智能正站在怎样的分水岭上?这两个环节的企业又正在做什么以验证自己的路线?

在这个共识极度稀缺的行业里,每一个分歧都值得被认真倾听与审视。

跑通数据生意的商业化闭环

据Fortune Business Insight统计,2025年,AI训练数据集市场达35.9亿美元,预估2034年,这个数据可以达到231.8亿美元。

数据环节,此刻既是具身智能最离不开的一环,也站在了巨大市场机遇的门口。这场会议,试图将这个机遇拆分,变成3个亟须解答的问题。

数据是如何制约着具身智能模型的发展?

穹彻智能执行总裁秦成在演讲《具身智能:让AI走进物理世界,创造真实价值》中,开门见山地回答了这个问题。

e544eaf505c9eb8096cb5529844b71f3.jpg

穹彻智能执行总裁秦成

其一,数据来源极为分散,不同设备、不同场景采集到的数据格式与质量参差不齐,难以统一管控,导致采集成本居高不下、可用数据规模却十分有限,尤其缺失真实世界中大量存在的长尾场景;

其二,模型训练周期漫长,从数据预处理到模型收敛往往需要数周甚至数月,而训练出的模型在技能迁移方面表现薄弱,泛化能力有限,一旦更换任务或环境,就需要重新采集数据、重新训练,后训练成本极其高昂;

其三,现实世界与仿真或实验室训练场景之间存在巨大的鸿沟,任务往往不可预测、环境动态变化,模型无法自我识别错误并主动纠偏,不得不依赖大量工程人力进行实时干预和调试。

2026年提及率最高的便携式穿戴设备,是如何解决数据问题?

灵初智能首席科学家温颖在《基于人类数据打造具身灵巧操作通用模型》的演讲中提出人类数据这一路径,通过把数据采集“嵌入”到真实工作里,不会有故意放慢速度、配合数采设备做出某些动作等情况,比如让物流工人、家政人员、外卖员在正常工作的过程中佩戴手套。

03546db323023d6568e8fc6a892e861d.jpg

灵初智能首席科学家温颖

如此一来,人类数据每一条都是完整的SOP,包含了节拍、环境和动作细节,再结合极少量真机微调,以实现长程精细复杂操作。

在这过程中,灵初智能的手套本质上是一个全模态的采集系统,一方面,它可以通过6D Pose Tracking获取手部的空间位置;另一方面,通过外骨骼结构记录每个关节的精确角度,同时在整个手部覆盖触觉传感,把接触信息也一并采集下来。此外,还可以结合第一人称相机等视觉信息。

福莱新材的首席科学家陈书厅在《以触觉为核心的数据采集终端:补齐具身智能最后1毫米的数据闭环》的演讲中,直言道,以人为中心的数据,才是具身智能数据规模化的关键突破口。

6cbba3adc781ddcee3535e844ce85b6f.jpg

福莱新材的首席科学家陈书厅

具体来看,人本数据采集自下而上可分为四个层级:第一层是第一视角视频,主要解决数据规模问题;第二层是动捕、IMU或光学追捕,解决姿态问题;第三层是手套或手部外骨骼,解决动作问题;第四层是UMI / DexUMI,作为最高层级,具备低本体差距与技能迁移的优势。

不过,目前仍有两类数据空白亟待填补:一是由同构且具备触觉感知能力的UMI终端所产出的高保真数据;二是由配备触觉模块的数据手套或手部外骨骼所产出的数据,在手套数据更容易形成规模化的前提下,还需进一步补充接触、力与滑移等信息。

不难发现,两者均将“以人为中心”和“触觉信息”作为共同关键词。不同的是,前者的重心落在真实工作场景下的数据采集,后者则聚焦于硬件设备对感知信息真实性的还原能力。

数据的后处理难题怎么解决?

在《重塑物理世界:构建通用机器人大脑》演讲中,千寻智能副总裁孙荣毅同样直言不讳对设备的重视,并透露公司在2年时间里推出了7款可穿戴数采装备,今年Q2,千寻智能推出uDAS-2.0可穿戴式移动采集设备,数据质量可达遥操的90%。

773145b1c9faf7618524f53d8d15a7be.jpg

千寻智能副总裁孙荣毅

其主张,填补数据空缺,必须以好用的数采设备为基础,在此条件下使用统一设备下采集的数据,更能成为标准资产,数采生意也才能完成从采集到变现的闭环。

在结束演讲后,高工咨询总经理郑利瑶则是抛出一个问题:采集到大量数据之后,要如何清洗和处理数据?

孙荣毅表示,采集只是第一步,数据回收之后,如何对其重点筛选、如何标注与校对,还涉及多种不同语言的描述及常用描述方式。最初采用人工标注的方式,客观来看,负责数据质检与标注的人数远超数据采集人员,达到后者的两倍以上。但这种方式会导致更是管理半径越来越大。

目前,公司尝试改用AI手段进行数据标注、自动质检与自动处理,让系统自行处理大规模数据。

可见,数据生意的门槛远不止采集。后处理所需的时间和人力不可估量;而如何兼顾质量与成本,这一问题同样复杂。换句话说,数据的“后半程”才是真正的战场。

2026年不仅仅是WAM的时代

说完数据,下一个绕不开的话题就是大模型。

暂时搁置数据课题,我们把目光转向具身大模型环节,这个领域正在发生什么?从VLA到WAM的争论,从分层模型到端到端架构,各方究竟在探索哪些方向?

星源智机器人联合创始人何嘉伟在《具身大模型走向何处:VLA还是世界模型?》的演讲中,总结了3个当前具身模型的主要范式极其挑战:

一是以OpenVLA为例的VLA大模型,帮助机器人实现从语言和视觉到动作的端到端能力,即机器人可以根据指令做出动作,但这更像是“把见过的动作模式调出来”,而非真正理解世界;

二是以LeWorldModel为例的AC-WM,机器人通过动作条件(action condition)学习latent dynamics,即从环境上下文(contex)预测推理出target representation,但还是在固定的数据集上学习,而非真实世界闭环,以及持续修正世界理解;

三是以LingBot-VA为例的WAM,机器人开始具备action后果预测的能力,即保留视频生成模型的预训练能力,但大多仍是离线与训练主导,把视频生成模型当作预训练底座,向机器人控制适配,本质还是行为克隆。

总而言之,具身智能正在从“视觉到动作的条件反射式 VLA”,演化为“先想象世界、再生成动作”的 WAM,其核心 scaling law 已从 Action Data 转向 World Dynamics Data(世界动力学数据)。

8c295d48fda3678fe0e4043a7310e1a5.jpg

星源智机器人联合创始人何嘉伟

值得注意的是,何嘉伟强调称,适合构建WAM的路线,不是单纯的Sora/WAN 式视频生成模型。

而是以NVIDIA的Cosmos、DeepMind的Dreamer/Genie、Meta的V-JEPA为代表的“可交互物理世界模型”,再通过diffusion或latent skill action decoder将imagined future grounding成真实机器人动作的内在。

也就是说,2026年正是WAM的时代。

正如北京人形机器人创新中心世界模型负责人邹世龙在《Pelican-Unified 1.0:构建统一的具身智能模型》的演讲中表示,世界模型和VLA并不是互斥的,2者融合是一种趋势。

6fb10ab6d108fe0a3d2e5ebcaa70d12c.jpg

北京人形机器人创新中心世界模型负责人邹世龙

邹世龙表示,“我们提出了统一具身智能范式不再将理解、推理、想象、行动视为独立能力,而是看作同一个智能闭环中的相互依赖维度。强调三者应共享内部表示、相互约束、共同演化。”

邹世龙将北京人形机器人创新中心推出的世界模型做了拆分:

上层是VLM统一理解器和推理器:VLM 同时负责理解与推理,生成面向任务、动作与未来后果的任务链式推理(chain-of-thought),同时将链式推理压缩为稠密隐变量 z。

下层是统一未来生成器:基于 z,通过共享的 Unified Future Generator(diffusion transformer架构),同时生成未来视频和未来动作。

有意思的是,在VLA和世界模型的融合观点下,邹世龙也对WAM抛出2个问题:对于落地,WAM会是一个不错的方案吗?如何保证实时性?

仿真系统是如何为大模型护航?

聊完了VLA与WAM的大模型之争,最后一个议题,自然就落在了物理AI仿真系统上。无论是为VLA大模型提供海量仿真数据,还是让世界模型在系统中学习真实世界的运行规律,这一切都离不开仿真环境的预训练过程。

可以说,仿真系统是大模型从理论走向落地的“试验场”。

松应科技CEO聂凯旋在《物理AI正重构现实世界》演讲中,以机器人进厂前的全链路虚拟训练场为例,给出了大家最关心的落地答案。

7eae18c3da50740023c87d331720170a.jpg

松应科技CEO聂凯旋

整个流程可以概括为五个关键步骤:首先,按照真实的制造产线进行高精度的虚拟映射,在仿真环境中1:1还原产线布局、设备运动与工艺流程;其次,在这个虚拟场景中,系统化地采集制造业场景语料;

接着,基于这些仿真语料,训练面向制造业场景的专用模型,使其理解并模仿产线中的操作逻辑;然后,由经验丰富的专家(即领域专家或验证工程师)在虚拟场景中对模型进行反复验证与调优,确保其动作准确、决策合理;最终,将经过充分验证的训练模型迁移部署到真实的制造产线中,完成从虚拟到现实的闭环。

小结

当这些企业在台上逐一讲述自己分别在数据和模型环节扮演的角色时,语气看似轻松,背后却是一段段充满分歧与试错的摸索历程。

在技术路线尚无定论、各方观点激烈碰撞的行业语境下,每一份阶段性成果都来之不易。

讨论暂歇,但技术的演进从不按会议日程行进。

对于具身智能这个仍在寻找共识的行业而言,不确定性不是风险,而是常态;风向的转变不是意外,而是必然。也正因如此,今天台上的每一份分享,都不应被视作单纯的答案,还可以被当作一个注脚,记录下这个行业在某个特定时间点,曾经如何思考、如何选择、如何前行。

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×