阅读时间大约4分钟(1487字)
在大模型持续改写数字世界之后,AI 正在加速进入物理世界。机器人能否真正走出实验室、进入真实场景,成为当前具身智能产业最受关注的话题。
在 2026 中关村论坛年会上,蚂蚁灵波科技首席科学家沈宇军以《探索具身智能上限,打造机器人时代的智能基座》为题发表演讲,系统阐述了蚂蚁灵波对具身智能产业发展的判断,以及围绕“智能层”所进行的模型布局与开源实践。
沈宇军指出,具身智能走向产业化,关键在于改变每进入一个新场景都从头开发的模式,通过基础模型将共性能力前置,持续降低场景落地的边际成本。基于这一判断,蚂蚁灵波选择聚焦机器人的“大脑”,打造具身基座模型,并通过开源与开放协同,与生态伙伴共同降低行业创新和场景落地门槛。

(图说:蚂蚁灵波科技首席科学家沈宇军发表在 2026 中关村论坛年会上演讲)
产业化落地的关键,在于降低场景开发的重复成本
当前,具身智能产业链正在快速发展,从本体、零部件到模型,各个环节不断涌现新进展。但在产业落地过程中,一个现实挑战也日益突出:很多能力可以在单一任务中实现,却难以快速复制到更多场景,导致开发成本居高不下。
针对这一问题,沈宇军在演讲中算了一笔账:如果每家公司都各自投入 100 万元完成一个场景开发,10 家公司就是 1000 万元;但如果先投入 900 万元把通用基础能力做好,打好基础之后,接下来每家公司只需花费 10 万元,就能完成相应场景的开发。“表面上看,总和仍然是 1000 万完成了 10 个场景,但当复制规模扩大时,后续每个场景的成本仍然仅需 10 万元,也就是说边际成本会逐渐降低。”
在他看来,这正是具身智能产业需要“智能基座”的重要原因。通用能力的持续沉淀,将有助于本体厂商、场景方和开发者在统一底座上更高效地开展适配与开发,这也是蚂蚁灵波将自身定位为基模开发者的重要出发点。“我们希望通过提升并开放基模能力,推动整个行业的发展。”沈宇军说。
从 VLA 到 VA,构建机器人的“大脑平台”
今年 1 月,蚂蚁灵波开源了四款模型,包括高精度空间感知模型 LingBot-Depth,具身基座模型 LingBot-VLA,世界模型 LingBot-World,以及视频-动作模型 LingBot-VA。从空间感知、具身大脑到机器人的想象空间等,构建起一整个“大脑平台”。
其中,LingBot-VLA基于 9 种主流双臂机器人构型、超过 2 万小时真实世界操作数据进行预训练,在部分任务中仅需少量演示数据即可实现迁移,体现出较强的跨环境泛化与复杂动作理解能力,在任务执行的稳定性和操作成功率上均处于行业先进水平。
在模型布局背后,是蚂蚁灵波对机器人智能路径的进一步思考。沈宇军指出,机器人所面对的物理世界,本质上是一个持续变化、需要实时反馈的动态环境。相比一次性完成全部规划,更重要的是在执行过程中持续感知环境变化,并根据反馈不断修正动作。这意味着,机器人需要的不只是“理解并执行”,而是“边感知、边行动、边调整”的闭环能力。
基于这一判断,蚂蚁灵波在业内率先探索了VA(Video-Action)方向,尝试更直接地建立视觉动态与动作输出之间的联系,让机器人形成更贴近真实环境反馈的行为模式。
对未来一到三年的发展,沈宇军认为,VLA、VA 与世界模型等路线将加速融合,随着具身数据加快积累,机器人面向真实物理世界的闭环智能能力将持续演进。与此同时,安全能力也将加快从外部约束转向模型内部,成为具身智能走向规模化应用的重要基础。
开源协同,降低行业创新门槛
在演讲中,沈宇军还强调了开源对于具身智能产业发展的现实意义。
他表示,具身智能是高度综合的领域,没有任何一家企业能够独立完成所有环节。开源的意义,在于为开发者、合作伙伴和产业参与者提供一个可验证、可适配、可迭代的共同基础,加快技术能力向真实场景转化。
同时,模型的“效果好”与开发者实际感受到的“好用”之间,往往还隔着一层适配鸿沟。开源能够帮助发现并填平这道鸿沟,当模型被更多人使用、进入更多真实任务、接收到更多来自一线场景的反馈,相关能力才能进一步迭代演进。
目前,蚂蚁灵波已与多家生态伙伴联合推进模型在真实场景中的适配与落地。沈宇军表示,团队将围绕机器人“智能层”持续完善基础模型能力,通过开源开放和生态协同,推动具身智能规模化应用落地。
