5月大模型杀疯:每2天出一款,比本体还多
统计 阅读时间大约10分钟(3733字)

2026-06-12 5月大模型杀疯:每2天出一款,比本体还多

来源:豆包
具身大模型的修正阶段

作者:Lvy     出品:高工人形机器人

2026年,具身大模型和各类框架系统扎堆出现。

几乎每个月都有新成果公布,如提升机器人完成复杂长程任务的能力,强化模型预测能力与动作决策之间的关联,增强模型推理能力,统一并简化模型结构,提升VLM环节的推理能力,甚至为其附加运动决策功能等。

虽然方向各异,但每项成果都在修补现有模型的短板。

单看这些新发布或开源的大模型,可能会觉得方向模糊、难辨高下;但若将它们放在一起对比,就会发现一个清晰的图景:世界模型已是势不可挡的趋势,而VLA也远未退场。

具身智能企业新发布的大模型

普渡机器人

具身智能大模型PuduFM 1.0、通用具身智能体平台PuduAgent

5月11日,普渡机器人发布具身智能大模型Pudu Foundation Model(PuduFM 1.0)。

该模型采用分层解耦、协同进化的系统架构,通过模拟生物神经系统的"大脑"高层逻辑规划与"小脑"底层精细控制的清晰分工,赋予机器人应对复杂、不确定性场景的卓越鲁棒性。

5月12日,普渡机器人发布通用具身智能体平台PuduAgent。

PuduAgent是一个面向物理世界的通用具身智能体平台,包含三大核心能力:系统层(PuduAgent OS)提供运行环境与认知基座;能力层(PuduAgent Skills)构建标准化的原子能力库;安全层(PuduAgent Safety)实现执行约束与风险控制。

蚂蚁灵波

具身基座模型LingBot-VLA的真机后训练工具链

3e6d622b039d340dfd696c2e8eee397a.png

5月13日,蚂蚁集团旗下具身智能公司灵波科技,宣布全面开源具身基座模型LingBot-VLA的真机后训练工具链。

基于这套工具链,开发者可以把自有数据从LingBot-VLA快速迁移到自有机器人和具体任务中。

资料显示,此次开源针对真机适配过程,主要面向4个环节:支持多LeRobot数据合并、关节维度映射标准化的数据处理工具;面向真机场景优化的训练配置;离线评测工具;以及支持编译加速的真机部署模块。

晨昏线科技

目标因果世界模型TermiBrain GCWM1

ccbafe972ea8609649d6c5c5d659e34f.jpg

5月13日,晨昏线科技发布目标因果世界模型TermiBrain GCWM1,核心为“世界模型不应只是像素生成器,必须是物理因果引擎。”

该模型实现了从世界理解→世界预测→世界干预的完整闭环,在此基础上,GCWM1 进一步提出了“多世界线搜索”,从物理先验的底层约束和任务目标出发,在潜空间中并行生成与核心目标因果相关的关键世界线,每一条都清晰标注着“如果这样,就会那样”。

从“单状态决策”跨越到“多状态分布预测”,让机器人具备了成功率更高的预判能力。

地平线

小脑大模型HoloMotion-1

9752d39b68bfe818e7777533ec9c8c06.png

5月18日,地平线正式开源其机器人实验室面向人形机器人全身控制打造的4亿参数级机器人小脑大模型HoloMotion-1。

在模型架构上,HoloMotion-1采用MoE-Transformer policy。系统以参考动作和机器人本体观测为输入,通过reference-conditioned router进行稀疏专家路由,再由Transformer主干网络和action head输出机器人全身控制动作。

HoloMotion-1首先建立的能力是,Imitate Any Pose,即机器人运控领域中的通用motion tracking任务。也就是说,机器人不仅要会走路、站立或执行少量预设动作,还要能够从大规模开放动作数据中学习复杂全身姿态,并迁移到真实机器人上稳定执行。

智元

BFM-2

5月23日,智元发布了BFM-2,二阶段 Motion-Between 运控基座模型,一个能在任意状态下自主推理运动演化的“小脑”。

BFM-2 是全球首个引入端到端 DOF Feather Motion Generator 生成式训练机制的全身运动基座模型。

资料显示,运控基座模型,它背后对应着一个真实需求,当上层智能越来越强,机器人底层身体也必须变得更通用、更稳定、更可调用。

其一般由三层构成,上层是VLA,主管语义解析和任务调度;中层是运控基座,负责身体行为生成;底层是硬件系统,专司真实力矩与接触执行。

根据智元官方演示,搭载 BFM-2 的人形机器人被人为推倒后能自主调整肢体姿态,数秒内连贯起身并保持动态平衡;在不平整地面测试中也能主动调步态稳重心。

智澄AI

Chengling PWM 0.1

5月28日,智澄AI正式开源澄灵物理世界模型 0.1 版本(Chengling PWM 0.1),采用MIT 开源协议。

澄灵 PWM 同源于 Meta 联合嵌入预测架构(JEPA),与传统生成式世界模型不同,它直接从视觉、本体觉等原始感官输入中学习物理世界运行规律,通过观察机器人演示预测动作后果,让机器人在执行任务前完成 "心智模拟"。

本次开源的 0.1 版本聚焦核心架构与训练流水线,在 robomimic 多模态数据集上完成验证,可根据历史观察序列和自然语言指令,预测完整未来动作轨迹。

自变量

具身基础模型 WALL-OSS-0.5

37bb056704324b86423b9ab12342fef6.jpg

5月28日,自变量机器人开源了其具身基础模型 WALL-OSS-0.5。

该预训练模型可以直接部署到自变量自研的机器人本体上,完成搬运、分拣、整理绳子等多种操作任务,甚至一些效果能够达到不少模型需要微调才能触及的水平。

WALL-OSS-0.5 模型瞄准的核心命题是让 VLM 主干真正习得可泛化的动作能力。

WALL-OSS-0.5把动作 Token 化,然后塞进语言模型训练。

自变量提出了一个叫 Gradient-Bridge 的设计,因为过去的 VLA 是图像到主干,再到动作头,动作监督停留在 Action head。

经过 Gradient-Bridge 后,图像、文本、动作 Token 并到同一条自回归序列,使得动作也像语言一样,可以被预测。

模型用交叉熵损失去学习动作 token,并让梯度直接反向更新主干模型。

世界模型Wall-WM

9aafe87ffb8d451ceb201cef2f85e828.jpg

同月29日,自变量机器人推出首个具备事件级预测能力的世界模型Wall-WM。

模型传递过程中信息丢失的问题。自变量通过 Wall-WM 这一世界模型,先换掉大模型思考的时间单位,以“事件”为单位进行预测。

即模型只在世界发生重要变化时,才重新调整预测。

Wall-WM 可以实现同一套“大脑”,可以灵活适配不同场景。这源于其有两种模式。

一是事件模式,适合已经有上层规划器的场景,设置好指令后,机器人一次输出一个完整的动作单元;

二是统一模式,适合没有外部规划器、需要端到端实时控制的场景,模型独立完成推理和执行,保持固定的控制频率。

越疆

DobotWAM具身大模型

2d9df2793fd8321a306f1f3b8878f0bb.jpg

5月29日,越疆正式发布自研世界动作模型空弈DobotWAM具身大模型。

越疆空弈DobotWAM具身大模型的思路,是在视觉-语言-动作建模基础上,进一步引入三维空间理解、机器人运动几何约束和真实数据闭环机制,让模型不仅学会“模仿动作”,更学会“理解动作为什么这样做”。

眸深智能

STI-WM时空一体世界动作模型

5月31日,眸深智能正式推出STI-WM时空一体世界动作模型(Spatiotemporally Integrated World Model)。

STI-WM面向机器人长时序规划、在线闭环控制、真实物理交互,实现空间结构、时间演化、物理一致性、执行鲁棒性四维一体化统一。模型可兼容RGB图像、深度点云、机器人本体多模态感知输入,将复杂环境信息统一编码为紧凑高效的时空潜在世界状态,上层支撑百秒级长时程任务推演与全局轨迹规划,下层输出精准可控的精细化动作片段。

具身智能模型相关论文

浙江人形机器人创新中心&港中文大学&浙江大学

论文题目:A retrieval-augmented framework enabling VLM spatial awareness for object-centric robot manipulation

三维空间理解与操作模型RAM(Retrieval-Augmented Manipulation)

探索方向:用“知识检索”让机器人读懂三维世界

4e27b1caaaf5c2ee29741c24151d635c.jpg

5月1日,由浙江人形机器人创新中心联合香港中文大学、浙江大学等多家高校与科研机构共同发表了机器人空间智能研究,提出名为RAM(Retrieval-Augmented Manipulation)的三维空间理解与操作模型,为提升机器人在复杂长程任务中的操作可靠性提供了新的技术路径。

RAM 借鉴检索增强生成(RAG)的思想,为大模型配备可查询的外部三维知识库。机器人执行任务时,模型可以按需检索物体类别、几何属性、功能平面、抓取点等空间先验信息,从而弥补视觉语言模型自身三维空间理解不足的问题。

与将知识隐含在模型参数中不同,RAM 的空间知识更加显式、可解释,也便于扩展。

OpenHelix Robotics&浙江大学&西湖大学

论文题目:VAMPO: Policy Optimization for Improving Visual Dynamics in Video Action Models

VAM强化学习后训练框架VAMPO

探索方向:视频动作模型落地机器人操控的瓶颈

ecf5ccf4fb2001a5bdb94bc7e3f79654.png

5月18日,OpenHelix Robotics、浙江大学、西湖大学等团队联合发布了VAMPO。

该框架旨在消除“生成逼真度”与“操控精准度”之间的目标错位,使机器人的未来预测能力能服务于动作决策。

研究成果:

其一,为避免奖励投机(Reward Hacking)与长程信用分配失效,VAMPO首创欧拉混合采样器(Euler Hybrid Sampler),解决信用分配难题;

其二,采用GRPO(分组相对策略优化)算法,搭配潜空间一致性奖励(L1距离+余弦相似度),对齐专家动态。

北京人形机器人创新中心

论文题目:Pelican-Unify 1.0: A Unified Embodied Intelligence Model for Understanding, Reasoning, Imagination and Action

统一具身基础模型Pelican-Unified 1.0

探索方向:用单一模型把"看懂场景、推理任务、想象未来、执行动作"四个能力统一进同一个梯度回路,不再靠VLM、VLA、世界模型系统拼 PipeLine。

f04612d8186970c8111839dcee70d84d.png

5月20日,北京人形发布首个统一具身基础模型Pelican-Unified 1.0。

Pelican-Unified 的架构包括两大组件:

组件一结合理解和推理,即统一 VLM,这个推理轨迹不是事后解释,是具身生成过程的中间表示,会被下游生成损失反向约束;

组件二结合想象和动作,即UFG 统一未来生成器,不用独立世界模型做视频预测、再用独立策略头做动作生成。

北京大学副教授穆亚东&北京大学&星源智团队

论文题目:Extending Embodied Question Answering from Perception to Decision

大规模数据集EQA-Decision、对应的RoboDecision训练框架

探索方向:具身问答从静态感知扩展到动态决策

70f7172912c614879094be0afda43eb8.png

EQA-Decision数据集拥有超过四百万个多模态问答对,数据来源横跨模拟环境、图像问答、第一人称视频和真实机器人轨迹四大类型。

RoboDecision训练框架有三个递进式训练阶段,分别是SFT(监督微调)、CoT-SFT(思维链监督微调)、GRPO(强化学习微调)。

为了实现GRPO阶段的最终目的,团队设计了一种混合奖励函数,包括推理奖励、答案奖励、视觉一致性奖励。

最具创新性的是视觉一致性奖励,它用OpenCLIP对齐生成的推理与视觉观察,确保模型的思考内容真正反映画面中的视觉证据,而非靠文本先验“瞎猜”。

Genesis AI

论文题目:The Role of Simulation in Scalable Robotics, Genesis World 1.0, and the Path Forward

Genesis World 1.0

探索方向:让仿真系统具备闭环评估能力。

5月28日,Genesis AI 发布 Genesis World 1.0,针对模型开发周期本身慢的问题,将仿真不仅仅是"数据生成器",更可以是机器人基础模型的评估与迭代引擎。

在现阶段,Genesis AI的目标是在不让任何仿真数据参与预训练的前提下,让仿真和真实世界之间建立强相关性。

其认为,当训练和评估共享同一份仿真分布时,模型表现的提升既可能反映"模型/数据配方真的更好了",也可能只是"对仿真器动力学拟合得更紧了"。

让两条管线保持解耦,才能拿到一个更干净的信号:判断哪些实验是真正在改进模型表现。

北京大学副教授穆亚东&星源智团队

论文题目:RoboAgent: Chaining Basic Capabilities for Embodied Task Planning

RoboAgent方案

探索方向:机器人系统所面对的探索、定位、状态理解、动作解码和失败恢复等流程。

cd54be577226b480eb0a306288afca81.png

针对VLM没办法进行具身路径规划这一问题,北京大学副教授穆亚东联合星源智团队提出RoboAgent方案。

它把具身路径规划拆成一系列更小的、VLM本来就擅长的视觉-语言子问题,类似在一个 scheduler 添加了EG(探索引导)、OG(物体定位)、SD(场景描述)、AD(动作解码)、ES(经验总结)5类能力。

一个值得注意的地方是,RoboAgent 没有把这些能力做成多个外部工具,也没有依赖封闭模型或独立模块拼接。Scheduler 和所有能力都由同一个 VLM 实现。模型只是通过不同 prompt、不同上下文和不同输入输出格式,在统一框架内扮演不同能力角色。

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×