阅读时间大约7分钟（2501字）

3小时前摒弃VLA与世界模型：Generalist走出具身智能原生交互新路径

来源：机器人产业应用

看懂、预判、触碰世界三者合一，才是下一代通用具身智能的终极形态。

作者：Hunterson 编辑：赵鹏程排版：曹若曦出品：机器人产业应用

前言

当下全球具身智能赛道路线固化：企业要么深耕落地高效的VLA端到端动作模型，要么布局侧重物理推演的世界模型，两大范式分割研发资源，赛道同质化内卷持续加剧。不过，有一家硅谷独角兽Generalist跳出固有框架，走出一条独立原生技术路线。这支由DeepMind、波士顿动力核心人员组成的团队，放弃复用主流模型权重，自研穿戴式采集设备积累海量交互数据，从零训练面向物理操作的专属基座，专攻灵巧交互打通落地闭环。

本期内容，我们结合播客《Automated》Brian Heater对Generalist CTO Andrew Barry的访谈（2026年6月10日发布），看看Generalist这套差异化方案究竟是什么，以及它为全球具身赛道带来的路线新思路。

Generalist：顶配跨界团队，精准洞察行业底层痛点

Generalist2024年成立，定位原生物理通用智能企业，创始团队兼具算法与硬件双重核心经验。

CEO Pete Florence、首席科学家Andy Zeng来自DeepMind，是PaLM-E、RT-2初代VLA模型核心研发者；CTO Andrew Barry拥有波士顿动力Spot机器人整机工程经验，后深耕机器学习底层机理，完整亲历VLA技术从诞生到普及的全周期。

依托亮眼技术背景，公司完成累计4亿美元融资，英伟达创投、贝索斯旗下基金等机构参投，投后估值20亿美元。团队基于多年行业实践，精准点出赛道两大核心瓶颈：VLA模型依赖通用大模型做动作映射，难以吃透真实物理规则；世界模型的虚拟推演无法消除仿真与现实的鸿沟；而全行业最稀缺的，是低成本、多元化的真实机器人交互数据。

据此企业确立清晰战略取舍：不自研全品类人形整机，不深耕成熟的移动导航技术，聚焦决定商业价值上限的灵巧精细操作；拒绝依附现成VLA、世界模型架构，搭建第三条原生具身技术路线。

路线破局：摒弃通用模型“拐杖”，倒置模型底层逻辑

访谈中Andrew Barry提出核心观点：GEN系列模型不属于VLA、世界模型任一体系。

行业普遍复用开源大模型权重微调机器人模型，Andrew Barry将其称作研发“拐杖”。GEN-1超九成参数从零训练，仅保留少量通用权重辅助视觉识别，未来将实现完全原生训练。其架构逻辑与行业主流完全倒置：

市面上绝大多数模型以语言、视觉为底层底座，动作能力作为上层衍生；GEN基座将物体接触、力学反馈、物理碰撞作为底层核心，语言与视觉仅作为辅助感知模块。

Andrew Barry用通俗逻辑解释：图文信息只能完成认知，无法教会机器人实操，全网文本视频对摩擦、形变、受力交互等实操能力增益有限，唯有海量真实交互，才能让模型掌握物理底层规律。

同时团队验证了全新结论：跨场景、异类型的人类操作异构数据，反而能提升模型对光线、场地变化的抗干扰能力，打破“训练数据必须贴合落地场景”的固有认知。

核心壁垒：穿戴式采集设备，搭建百万小时数据飞轮

算法架构并非行业核心瓶颈，高质量实操数据才是，这也是Generalist的核心护城河。

传统两类采数方案各有硬伤：机器人遥操作采集成本高、场景单一；仿真模拟存在物理失真，真机迁移效果大打折扣。Generalist独创穿戴式手部动捕手套，转换数据生产逻辑——不再把场景搬到机器人前，而是让人走进真实世界采集交互数据。

团队完成硬件量产轻量化，全球投放上千台采集终端，面向工人、普通志愿者开放采集，覆盖工厂、家居、商超全场景，完整记录手部姿态、受力、环境视觉信息，累计沉淀50万小时原生人类交互数据，形成独家数据飞轮。

针对数据内天然存在的人类失误操作，团队不会一刀切清洗。Andrew Barry认为，保留少量不标准动作，能够训练模型自主纠错、容错的临场能力，相比追求百分百完美数据集，适配真实工况的容错能力更具备落地价值。

依托这套数据底座，GEN模型验证了物理AI缩放定律：GEN-0任务成功率仅66%，迭代至GEN-1仅间隔5个月，同等任务成功率提升至99%；模型出现明显涌现特性，仅训练单侧抓取动作，就能自主切换另一侧手臂完成作业，具备无预设脚本的即兴应变能力。

商业取舍：以付费真实任务为标尺，克制多元化研发

行业大量团队沉迷炫酷实验室Demo，最终难以实现商业化闭环，这是Andrew Barry总结多年从业经验得出的核心教训，也成为Generalist的研发铁律：所有基准测试任务，均选取当下市场有付费需求的真实工序，技术研发优先服务商业价值，而非单纯追求技术难度。

市面上机器人移动导航技术已经成熟，但普遍缺失精细交互能力，直接限制商业化空间，灵巧操作因此成为团队唯一攻坚核心。落地层面企业保持高度克制：

硬件上定位算法服务商，不做人形整机，仅自研配套灵巧夹爪适配自有数据体系，同步对外销售创造收入；

场景上优先落地工业小件分拣、桌面规整、家用物品操作等标准化付费场景，以垂直业务营收持续反哺数据迭代；

研发上集中全部资源打磨原生交互基座，不双线布局VLA、世界模型业务，精准筑牢差异化长板。

区别于行业堆参数、造演示、讲概念的模式，Generalist全程围绕真机工况、商业闭环推进研发，规避行业普遍的商业化陷阱。

赛道终局：三大路线并行共存，融合是长期行业定局

结合本次访谈观点与2026年行业现状，全球具身智能形成三大完整技术路线，不存在优劣与替代关系，长期将走向协同融合，直观对比如下：

Andrew Barry表示，纠结模型标签没有产业意义，行业终局的融合路径清晰：世界模型负责上层全局预判规划，VLA承接中层实时动作执行，原生交互基座承担底层精细灵巧操作，三层架构联动构成完整通用智能体。

叠加ICRA 2026行业风向，赛道已经全面摒弃仿真跑分、参数内卷，真机落地价值成为统一评判标准，Generalist人机采数、原生训练、聚焦实操的路线，完美契合行业全新发展趋势。

行业启示：差异化数据基建，为国产具身提供全新发展思路

Generalist的发展路径，不仅是海外企业的技术突围，更为全球、尤其是国内具身产业提供可落地的借鉴方向。

其一，研发无需盲从主流范式。不用扎堆复刻VLA、世界模型，搭建专属规模化数据采集体系，就能打造原生差异化底座，跳出低水平同质化内卷。

其二，数据采集逻辑可彻底革新。穿戴式人机采集模式摆脱机器人自产数据的闭环，低成本产出高多样性交互数据，能有效解决国内行业灵巧操作数据稀缺的痛点。

其三，国内赛道具备天然融合优势。国内已在世界模型、轮式VLA领域完成技术积累，线下工厂、门店场景资源充沛，可借鉴人机采集方案补齐精细操作短板，打造“世界模型+VLA+原生交互”三位一体的国产具身底座。

归根结底，模型参数、架构标签、论文跑分都只是表层特征，能否真实感知、触碰物理世界，能否落地创造商业价值，才是企业穿越周期的核心竞争力。

结语

作为初代VLA模型的亲历者，Andrew Barry带领团队主动跳出自己参与搭建的行业主流框架，走出聚焦物理交互的原生路线。

VLA让机器人看懂世界，世界模型让机器人推演世界，而Generalist的原生交互模型，实现机器人真正触碰世界。三条路线各司其职、互补共生，打破单一范式垄断赛道的格局。

对于国内具身从业者，不必照搬海外发展路径，可结合自身资源深耕不同技术方向。全球具身智能已经进入多元换道竞争阶段，比拼的不再是路线复刻，而是对真实物理世界、实体产业需求的贴合程度。看懂、预判、触碰世界三者合一，才是下一代通用具身智能的终极形态。

具身智能

${{item.author_display_name}}$

右键可直接复制图片

3小时前摒弃VLA与世界模型：Generalist走出具身智能原生交互新路径

纬钛机器人完成新一轮Pre-A轮融资

源策未来完成数亿元种子轮融资

无界动力完成超2亿美元天使轮融资

以情感大模型重新定义人形机器人家庭万亿场景，优必选超仿生机器人首发订单破万

机器人关节里的三种减速器：行星、谐波、RV到底差在哪

擎天租首登静安时尚文化周，拓展“科技+时尚”产业边界

3小时前 摒弃VLA与世界模型：Generalist走出具身智能原生交互新路径

{{item.post_title}}

纬钛机器人完成新一轮Pre-A轮融资

源策未来完成数亿元种子轮融资

无界动力完成超2亿美元天使轮融资

以情感大模型重新定义人形机器人家庭万亿场景，优必选超仿生机器人首发订单破万

机器人关节里的三种减速器：行星、谐波、RV到底差在哪

擎天租首登静安时尚文化周，拓展“科技+时尚”产业边界

3小时前摒弃VLA与世界模型：Generalist走出具身智能原生交互新路径