阅读时间大约7分钟(2501字)
作者:Hunterson 编辑:赵鹏程 排版:曹若曦 出品:机器人产业应用
前言
当下全球具身智能赛道路线固化:企业要么深耕落地高效的VLA端到端动作模型,要么布局侧重物理推演的世界模型,两大范式分割研发资源,赛道同质化内卷持续加剧。不过,有一家硅谷独角兽Generalist跳出固有框架,走出一条独立原生技术路线。这支由DeepMind、波士顿动力核心人员组成的团队,放弃复用主流模型权重,自研穿戴式采集设备积累海量交互数据,从零训练面向物理操作的专属基座,专攻灵巧交互打通落地闭环。
本期内容,我们结合播客《Automated》Brian Heater对Generalist CTO Andrew Barry的访谈(2026年6月10日发布),看看Generalist这套差异化方案究竟是什么,以及它为全球具身赛道带来的路线新思路。

01
Generalist:顶配跨界团队,精准洞察行业底层痛点
Generalist2024年成立,定位原生物理通用智能企业,创始团队兼具算法与硬件双重核心经验。
CEO Pete Florence、首席科学家Andy Zeng来自DeepMind,是PaLM-E、RT-2初代VLA模型核心研发者;CTO Andrew Barry拥有波士顿动力Spot机器人整机工程经验,后深耕机器学习底层机理,完整亲历VLA技术从诞生到普及的全周期。

依托亮眼技术背景,公司完成累计4亿美元融资,英伟达创投、贝索斯旗下基金等机构参投,投后估值20亿美元。团队基于多年行业实践,精准点出赛道两大核心瓶颈:VLA模型依赖通用大模型做动作映射,难以吃透真实物理规则;世界模型的虚拟推演无法消除仿真与现实的鸿沟;而全行业最稀缺的,是低成本、多元化的真实机器人交互数据。
据此企业确立清晰战略取舍:不自研全品类人形整机,不深耕成熟的移动导航技术,聚焦决定商业价值上限的灵巧精细操作;拒绝依附现成VLA、世界模型架构,搭建第三条原生具身技术路线。
02
路线破局:摒弃通用模型“拐杖”,倒置模型底层逻辑
访谈中Andrew Barry提出核心观点:GEN系列模型不属于VLA、世界模型任一体系。
行业普遍复用开源大模型权重微调机器人模型,Andrew Barry将其称作研发“拐杖”。GEN-1超九成参数从零训练,仅保留少量通用权重辅助视觉识别,未来将实现完全原生训练。其架构逻辑与行业主流完全倒置:
市面上绝大多数模型以语言、视觉为底层底座,动作能力作为上层衍生;GEN基座将物体接触、力学反馈、物理碰撞作为底层核心,语言与视觉仅作为辅助感知模块。

Andrew Barry用通俗逻辑解释:图文信息只能完成认知,无法教会机器人实操,全网文本视频对摩擦、形变、受力交互等实操能力增益有限,唯有海量真实交互,才能让模型掌握物理底层规律。
同时团队验证了全新结论:跨场景、异类型的人类操作异构数据,反而能提升模型对光线、场地变化的抗干扰能力,打破“训练数据必须贴合落地场景”的固有认知。
03
核心壁垒:穿戴式采集设备,搭建百万小时数据飞轮
算法架构并非行业核心瓶颈,高质量实操数据才是,这也是Generalist的核心护城河。
传统两类采数方案各有硬伤:机器人遥操作采集成本高、场景单一;仿真模拟存在物理失真,真机迁移效果大打折扣。Generalist独创穿戴式手部动捕手套,转换数据生产逻辑——不再把场景搬到机器人前,而是让人走进真实世界采集交互数据。

团队完成硬件量产轻量化,全球投放上千台采集终端,面向工人、普通志愿者开放采集,覆盖工厂、家居、商超全场景,完整记录手部姿态、受力、环境视觉信息,累计沉淀50万小时原生人类交互数据,形成独家数据飞轮。
针对数据内天然存在的人类失误操作,团队不会一刀切清洗。Andrew Barry认为,保留少量不标准动作,能够训练模型自主纠错、容错的临场能力,相比追求百分百完美数据集,适配真实工况的容错能力更具备落地价值。
依托这套数据底座,GEN模型验证了物理AI缩放定律:GEN-0任务成功率仅66%,迭代至GEN-1仅间隔5个月,同等任务成功率提升至99%;模型出现明显涌现特性,仅训练单侧抓取动作,就能自主切换另一侧手臂完成作业,具备无预设脚本的即兴应变能力。

04
商业取舍:以付费真实任务为标尺,克制多元化研发
行业大量团队沉迷炫酷实验室Demo,最终难以实现商业化闭环,这是Andrew Barry总结多年从业经验得出的核心教训,也成为Generalist的研发铁律:所有基准测试任务,均选取当下市场有付费需求的真实工序,技术研发优先服务商业价值,而非单纯追求技术难度。

市面上机器人移动导航技术已经成熟,但普遍缺失精细交互能力,直接限制商业化空间,灵巧操作因此成为团队唯一攻坚核心。落地层面企业保持高度克制:
硬件上定位算法服务商,不做人形整机,仅自研配套灵巧夹爪适配自有数据体系,同步对外销售创造收入;
场景上优先落地工业小件分拣、桌面规整、家用物品操作等标准化付费场景,以垂直业务营收持续反哺数据迭代;
研发上集中全部资源打磨原生交互基座,不双线布局VLA、世界模型业务,精准筑牢差异化长板。
区别于行业堆参数、造演示、讲概念的模式,Generalist全程围绕真机工况、商业闭环推进研发,规避行业普遍的商业化陷阱。
05
赛道终局:三大路线并行共存,融合是长期行业定局
结合本次访谈观点与2026年行业现状,全球具身智能形成三大完整技术路线,不存在优劣与替代关系,长期将走向协同融合,直观对比如下:

Andrew Barry表示,纠结模型标签没有产业意义,行业终局的融合路径清晰:世界模型负责上层全局预判规划,VLA承接中层实时动作执行,原生交互基座承担底层精细灵巧操作,三层架构联动构成完整通用智能体。
叠加ICRA 2026行业风向,赛道已经全面摒弃仿真跑分、参数内卷,真机落地价值成为统一评判标准,Generalist人机采数、原生训练、聚焦实操的路线,完美契合行业全新发展趋势。
06
行业启示:差异化数据基建,为国产具身提供全新发展思路
Generalist的发展路径,不仅是海外企业的技术突围,更为全球、尤其是国内具身产业提供可落地的借鉴方向。

其一,研发无需盲从主流范式。不用扎堆复刻VLA、世界模型,搭建专属规模化数据采集体系,就能打造原生差异化底座,跳出低水平同质化内卷。
其二,数据采集逻辑可彻底革新。穿戴式人机采集模式摆脱机器人自产数据的闭环,低成本产出高多样性交互数据,能有效解决国内行业灵巧操作数据稀缺的痛点。
其三,国内赛道具备天然融合优势。国内已在世界模型、轮式VLA领域完成技术积累,线下工厂、门店场景资源充沛,可借鉴人机采集方案补齐精细操作短板,打造“世界模型+VLA+原生交互”三位一体的国产具身底座。
归根结底,模型参数、架构标签、论文跑分都只是表层特征,能否真实感知、触碰物理世界,能否落地创造商业价值,才是企业穿越周期的核心竞争力。
07
结语
作为初代VLA模型的亲历者,Andrew Barry带领团队主动跳出自己参与搭建的行业主流框架,走出聚焦物理交互的原生路线。
VLA让机器人看懂世界,世界模型让机器人推演世界,而Generalist的原生交互模型,实现机器人真正触碰世界。三条路线各司其职、互补共生,打破单一范式垄断赛道的格局。

对于国内具身从业者,不必照搬海外发展路径,可结合自身资源深耕不同技术方向。全球具身智能已经进入多元换道竞争阶段,比拼的不再是路线复刻,而是对真实物理世界、实体产业需求的贴合程度。看懂、预判、触碰世界三者合一,才是下一代通用具身智能的终极形态。
