VLA vs 世界模型,π0.7 定下短期落地最优解
统计 阅读时间大约6分钟(2365字)

2026-05-09 VLA vs 世界模型,π0.7 定下短期落地最优解

来源:机器人产业应用
5B参数VLA基座模型π0.7,硬生生砸开了这道困局。

作者:Hunterson    出品:机器人产业应用

前言

你有没有想过,为什么我们身边的机器人,永远都“有点笨”?

工厂里焊了十年汽车外壳的机械臂,拧个瓶盖就彻底失灵;家里的服务机器人只会按预设路线扫地,让它把杯子放进水槽就原地打转;就连爆火的人形机器人,演示里行云流水的动作,换个场景就立刻露怯。

过去十年,整个具身智能行业都困在“专机专用、一任务一模型”的死胡同里,换个硬件、改个需求,所有工作就要推倒重来。所有人都在喊“通用机器人”的口号,却没人拿出真正能落地的成果。

直到2026年4月17日,Physical Intelligence发布的5B参数VLA基座模型π0.7,硬生生砸开了这道困局。

image.png

没有盛大的发布会,没有堆砌晦涩的黑话,它只用一组可复现、可落地的实验,直接改写了行业规则:机器人第一次不靠死记硬背,就能完成从未训练过的新任务;第一次让被当成垃圾的失败数据,成为提升智能的核心素材;第一次用同一套“大脑”,实现家用轻型臂到工业UR5e机械臂的跨本体适配。π0.7让所有人看清:通用机器人从来不是科幻愿景,而是正在发生的现实。

01

从“背台词”到“懂剧本”,机器人终于学会举一反三

先搞懂一个核心问题:π0.7到底给机器人带来了什么本质改变?

打个通俗的比方:以前的机器人,是只会背台词的演员,给了剧本就能演,改一句词就当场卡壳;而π0.7,是第一个真正看懂“剧本”的演员,你告诉它核心目标,它就能自己拆解动作,换个场景、换个任务,也能稳稳接住。

它的定位从来不是某个场景、某台机器的专用算法,而是能装进所有机械本体的“通用大脑”。5B的参数量相当克制,没有炫技式的堆料,而是采用了极其实在的架构:以Gemma3 4B视觉语言模型初始化的主干打底,搭配800M参数的流匹配动作专家模块,把每一份算力都用在“让机器人真的会干活”上。

8f4b933c3cc6c181a0add26130ef3351.png

π₀.₇通用机器人基础模型总览

它最颠覆的能力,是实现了真正的组合泛化——让机器人学会了举一反三,以全新方式重新组合,完成从未训练过的任务。

官方实验中最典型的例子,就是空气炸锅烤红薯:机器人从未见过空气炸锅,也没有任何关于 “烤红薯” 的训练数据。但仅通过自然语言指令,π0.7 就能自主拆解任务、组合基础技能,完整完成:拉开炸锅抽屉、放入红薯、关闭炸锅这一系列连贯动作,全程无需人工干预、无需提前训练样本。

擦耳机、调节风扇、给绿植浇水等全新任务也是同理,它不靠死记硬背特定动作轨迹,而是靠抓取、旋转、推拉等已学会的基础能力自由组合,就能应对陌生场景与陌生任务。

image.png

语言教练模式完成新任务(空气炸锅烤红薯)


过去十几年,机器人的逻辑只是 “复刻动作”,教它开一种抽屉,就只会开这一种抽屉。而 π0.7 真正在理解任务目标,即便换了对象、换了场景,也能自主调整、灵活完成,而不是直接宕机。从 “机械执行” 到 “智能解决问题”,这道行业跨了十几年的坎,终于被迈过去了。

02

打破软硬件强绑定,通用机器人终于能“开箱即用”

如果说组合泛化解决了机器人的“智商问题”,那π0.7更狠的一招,是解决了行业卡了十几年的“水土不服”难题。

机器人行业长久以来的死穴,就是软硬件的强绑定:每家厂商的机器人都有专属的控制系统和算法,A厂商的机器人学会了叠衣服,这套算法放到B厂商的机械臂上,立刻就会失灵。整个行业全是碎片化的封闭孤岛,就像当年各成体系的功能机,软件完全无法通用。

image.png

而π0.7,直接实现了软硬件的彻底解耦。

官方实验中,家用轻型机器人学会叠衣后,这套能力可以直接零样本迁移到UR5e工业机械臂上,无需重新训练、不用微调参数,任务成功率就能比肩人类专家。

image.png

π0.7 跨本体迁移实验(双机械臂与 UR5e 对比)


这意味着,未来的机器人行业,将彻底告别“专属硬件绑定专属大脑”的封闭模式,走向类似安卓之于手机的开放生态——一套通用系统,能适配不同品牌、不同配置的硬件,硬件厂商不用再费力自研算法,算法团队不用再迁就五花八门的硬件本体,整个行业的生态一下子就活了。

更难得的是,它把机器人的落地门槛降到了前所未有的程度。

image.png

π0.7 开箱即用长时序任务示例(倒垃圾 / 烤贝果)

以前想让机器人完成做咖啡、换垃圾袋这类任务,需要专业团队录数据、训模型、反复调试,周期动辄几天甚至几周,成本高得吓人。而π0.7开箱即用,无需任何微调,在多个高频场景里,就能追上甚至超越专项训练的强化学习模型。部署周期从周级压缩到分钟级,成本大幅缩减,哪怕是小团队、小商家,也能快速用上具备通用能力的机器人。

03

推翻十年行业教条:失败数据,原来也是宝贵的学习素材

π0.7给行业带来的最颠覆性革命,是彻底推翻了从业者信奉十余年的“数据铁律”。

长久以来,行业默认只有人工精修的成功演示数据才有训练价值,失败动作、低效尝试全是必须剔除的“垃圾”,否则会带偏模型。这套规则让行业陷入死循环:数据治理成本远超模型训练本身,中小团队连入局门槛都摸不到,全行业也深陷数据孤岛的困局。

| 混合质量数据与泛化性能关系曲线

而π0.7用严谨的对照实验砸碎了这一教条。它证明:模型不会被“脏数据”带偏,核心问题是缺少数据使用的明确指引。实验显示:无元数据标注时,数据越杂性能越差;但只要给数据加上标注成败、目标的轻量元数据——也就是一份简单的“数据说明书”,数据越丰富多元,模型泛化能力就越强。

被丢弃的失败动作,从此成了机器人的“反面教材”。这不是微小的技术优化,而是一场彻底的数据范式革命:当行业从“高成本精洗数据”转向“全量数据+轻量元标注”,数据成本大幅下降,行业门槛被彻底拉平,中小团队也能入局通用机器人研发,整个行业的活力被彻底激活。

| 元数据 ablation 对比表

实现这一切的技术路径格外朴实,没有炫技式的复杂架构,只用一套简洁的多模态输入框架,印证了通用机器人的核心是好用、能落地。

04

具身智能的路线之争

具身智能赛道长期有两条核心路线之争:一条是π0.7代表的VLA端到端路线,打通视觉、语言、动作,直接在真实世界训练落地;另一条是世界模型路线,先在虚拟世界搭建1:1的物理模拟器,让机器人学透物理规则后,再落地到真实世界。

两条路线争论多年,谁也说服不了谁,而π0.7的落地,让两条路线的商业化差距变得无比清晰。

image.png

而是在当下的商业化阶段,VLA路线的落地能力有着碾压级的优势:它不用耗费数年打磨完美的物理模拟器,直接用真实世界数据就能训练,消费级单卡即可运行,当天就能完成场景部署;靠语言指令和技能组合,就能快速适配家庭、工业、零售等多元真实场景,更轻、更便宜、更容易量产落地。

image.png

当然,这从来不是非此即彼的选择题。行业的终局,一定是两条路线的融合:短期1-2年,VLA路线将绝对主导具身智能的商业化落地,成为行业主流范式;长期来看,世界模型会作为子目标生成、长时序推演的补充模块,融入VLA主干架构,共同支撑更高阶的通用机器人能力。

9671c9846a27d30d88c1fe6a1d687307.jpg

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×