阅读时间大约6分钟（2365字）

2026-05-09 VLA vs 世界模型，π0.7 定下短期落地最优解

来源：机器人产业应用

5B参数VLA基座模型π0.7，硬生生砸开了这道困局。

作者：Hunterson 出品：机器人产业应用

前言

你有没有想过，为什么我们身边的机器人，永远都“有点笨”？

工厂里焊了十年汽车外壳的机械臂，拧个瓶盖就彻底失灵；家里的服务机器人只会按预设路线扫地，让它把杯子放进水槽就原地打转；就连爆火的人形机器人，演示里行云流水的动作，换个场景就立刻露怯。

过去十年，整个具身智能行业都困在“专机专用、一任务一模型”的死胡同里，换个硬件、改个需求，所有工作就要推倒重来。所有人都在喊“通用机器人”的口号，却没人拿出真正能落地的成果。

直到2026年4月17日，Physical Intelligence发布的5B参数VLA基座模型π0.7，硬生生砸开了这道困局。

没有盛大的发布会，没有堆砌晦涩的黑话，它只用一组可复现、可落地的实验，直接改写了行业规则：机器人第一次不靠死记硬背，就能完成从未训练过的新任务；第一次让被当成垃圾的失败数据，成为提升智能的核心素材；第一次用同一套“大脑”，实现家用轻型臂到工业UR5e机械臂的跨本体适配。π0.7让所有人看清：通用机器人从来不是科幻愿景，而是正在发生的现实。

从“背台词”到“懂剧本”，机器人终于学会举一反三

先搞懂一个核心问题：π0.7到底给机器人带来了什么本质改变？

打个通俗的比方：以前的机器人，是只会背台词的演员，给了剧本就能演，改一句词就当场卡壳；而π0.7，是第一个真正看懂“剧本”的演员，你告诉它核心目标，它就能自己拆解动作，换个场景、换个任务，也能稳稳接住。

它的定位从来不是某个场景、某台机器的专用算法，而是能装进所有机械本体的“通用大脑”。5B的参数量相当克制，没有炫技式的堆料，而是采用了极其实在的架构：以Gemma3 4B视觉语言模型初始化的主干打底，搭配800M参数的流匹配动作专家模块，把每一份算力都用在“让机器人真的会干活”上。

π₀.₇通用机器人基础模型总览

它最颠覆的能力，是实现了真正的组合泛化——让机器人学会了举一反三，以全新方式重新组合，完成从未训练过的任务。

官方实验中最典型的例子，就是空气炸锅烤红薯：机器人从未见过空气炸锅，也没有任何关于 “烤红薯” 的训练数据。但仅通过自然语言指令，π0.7 就能自主拆解任务、组合基础技能，完整完成：拉开炸锅抽屉、放入红薯、关闭炸锅这一系列连贯动作，全程无需人工干预、无需提前训练样本。

擦耳机、调节风扇、给绿植浇水等全新任务也是同理，它不靠死记硬背特定动作轨迹，而是靠抓取、旋转、推拉等已学会的基础能力自由组合，就能应对陌生场景与陌生任务。

语言教练模式完成新任务（空气炸锅烤红薯）

过去十几年，机器人的逻辑只是 “复刻动作”，教它开一种抽屉，就只会开这一种抽屉。而 π0.7 真正在理解任务目标，即便换了对象、换了场景，也能自主调整、灵活完成，而不是直接宕机。从 “机械执行” 到 “智能解决问题”，这道行业跨了十几年的坎，终于被迈过去了。

打破软硬件强绑定，通用机器人终于能“开箱即用”

如果说组合泛化解决了机器人的“智商问题”，那π0.7更狠的一招，是解决了行业卡了十几年的“水土不服”难题。

机器人行业长久以来的死穴，就是软硬件的强绑定：每家厂商的机器人都有专属的控制系统和算法，A厂商的机器人学会了叠衣服，这套算法放到B厂商的机械臂上，立刻就会失灵。整个行业全是碎片化的封闭孤岛，就像当年各成体系的功能机，软件完全无法通用。

而π0.7，直接实现了软硬件的彻底解耦。

官方实验中，家用轻型机器人学会叠衣后，这套能力可以直接零样本迁移到UR5e工业机械臂上，无需重新训练、不用微调参数，任务成功率就能比肩人类专家。

π0.7 跨本体迁移实验（双机械臂与 UR5e 对比）

这意味着，未来的机器人行业，将彻底告别“专属硬件绑定专属大脑”的封闭模式，走向类似安卓之于手机的开放生态——一套通用系统，能适配不同品牌、不同配置的硬件，硬件厂商不用再费力自研算法，算法团队不用再迁就五花八门的硬件本体，整个行业的生态一下子就活了。

更难得的是，它把机器人的落地门槛降到了前所未有的程度。

π0.7 开箱即用长时序任务示例（倒垃圾 / 烤贝果）

以前想让机器人完成做咖啡、换垃圾袋这类任务，需要专业团队录数据、训模型、反复调试，周期动辄几天甚至几周，成本高得吓人。而π0.7开箱即用，无需任何微调，在多个高频场景里，就能追上甚至超越专项训练的强化学习模型。部署周期从周级压缩到分钟级，成本大幅缩减，哪怕是小团队、小商家，也能快速用上具备通用能力的机器人。

推翻十年行业教条：失败数据，原来也是宝贵的学习素材

π0.7给行业带来的最颠覆性革命，是彻底推翻了从业者信奉十余年的“数据铁律”。

长久以来，行业默认只有人工精修的成功演示数据才有训练价值，失败动作、低效尝试全是必须剔除的“垃圾”，否则会带偏模型。这套规则让行业陷入死循环：数据治理成本远超模型训练本身，中小团队连入局门槛都摸不到，全行业也深陷数据孤岛的困局。

| 混合质量数据与泛化性能关系曲线

而π0.7用严谨的对照实验砸碎了这一教条。它证明：模型不会被“脏数据”带偏，核心问题是缺少数据使用的明确指引。实验显示：无元数据标注时，数据越杂性能越差；但只要给数据加上标注成败、目标的轻量元数据——也就是一份简单的“数据说明书”，数据越丰富多元，模型泛化能力就越强。

被丢弃的失败动作，从此成了机器人的“反面教材”。这不是微小的技术优化，而是一场彻底的数据范式革命：当行业从“高成本精洗数据”转向“全量数据+轻量元标注”，数据成本大幅下降，行业门槛被彻底拉平，中小团队也能入局通用机器人研发，整个行业的活力被彻底激活。

| 元数据 ablation 对比表

实现这一切的技术路径格外朴实，没有炫技式的复杂架构，只用一套简洁的多模态输入框架，印证了通用机器人的核心是好用、能落地。

具身智能的路线之争

具身智能赛道长期有两条核心路线之争：一条是π0.7代表的VLA端到端路线，打通视觉、语言、动作，直接在真实世界训练落地；另一条是世界模型路线，先在虚拟世界搭建1:1的物理模拟器，让机器人学透物理规则后，再落地到真实世界。

两条路线争论多年，谁也说服不了谁，而π0.7的落地，让两条路线的商业化差距变得无比清晰。