阅读时间大约5分钟(1718字)
作者:Lingshu 出品:具身智能观察室
引言
具身智能基础模型的发展长期沿碎片化路径推进——视觉语言模型擅长语义理解却无法执行,视觉-语言-动作模型连接感知与运动却缺乏未来想象,世界模型能生成视觉预测却难以被任务逻辑引导。
北京人形机器人创新中心(X-Humanoid)提出Pelican-Unified 1.0,首次论证具身智能的理解、推理、想象与行动应被视为单一自适应智能闭环中的相互依存维度,而非独立能力的简单拼接。
该模型以共享潜在表示为核心,实现统一理解(多模态上下文嵌入共享语义空间)、统一推理(思维链末端投影为稠密潜在变量)与统一生成(同一去噪过程联合输出未来视频与动作),三种监督信号在共享表示上反向传播,使推理、想象与行动从模块间消息转化为同一生成过程中相互塑造的梯度。

论文链接:
https://arxiv.org/abs/2605.15153v1
一、研究现状与动机
具身智能正朝着基础模型驱动的通用物理智能范式演进。然而,当前模态能力的发展呈现出显著的碎片化特征:
视觉语言模型(如Gemini Robotics ER、Pelican-VL)虽具备语义理解与时空推理能力,却缺乏物理交互执行机制,其推理结论缺乏物理后果的验证闭环;
视觉-语言-动作模型(如RT-2、、OpenVLA、Helix)虽能实现语言与感知到运动指令的映射,但缺乏显式的未来状态想象机制,其动作本质仍停留在行为模仿层面,限制了在未见组合、长时序和复杂任务中的泛化能力;
世界模型与视频生成器(如Cosmos-Predict、LeWorldModel)虽能预测未来视觉状态,但其想象能力隐含于像素级表征中,难以被任务逻辑与语言推理有效引导;
世界动作模型(WAM)虽进一步连接了想象与行动,但缺乏统一的跨模态推理架构,导致解释性差、难以在执行过程中实时纠错,且易受长时序误差累积的影响。
具身智能领域内不乏强大的组件,但缺失的是将理解、推理、想象与行动作为同一物理智能闭环中相互条件化的部分进行联合学习的端到端模型。
二、Pelican-Unified 1.0框架



1,统一编码器:从多模态上下文到稠密闭环状态

2,统一未来生成器:联合去噪的视频-动作扩散

3,条件扩散与联合训练目标


三、实验结果
1,统一模型作为三大专家的评估

感知-推理能力:在八项多模态感知基准测试中,Pelican-Unified以64.7的平均得分位居同规模模型之首。相较于基座模型Qwen3-VL-4B-Instruct的58.2分,统一训练将整体平均提升了6.5分,且提升主要集中在具身评估维度——Where2Place提升+28.2分,PhyX提升+20.6分,表明统一训练在保留通用推理能力的同时显著增强了物理交互理解能力。

物理交互能力:在RoboTwin 50任务双臂操作基准测试中,Pelican-Unified达到93.5%的平均成功率,在清洁与随机化条件下分别取得93.6%与93.3%,超过多数专业化VLA与世界模型基线,包括AIM(93.1%)、LingBot-VA(92.3%)和starVLA(88.3%),在对比方法中位列第二。50个任务中31个达到至少95%成功率,39个达到90%,15个完全解决(100%),覆盖点击、摇动、堆叠、交接与铰接物体操作等多种精细物理交互场景。

想象与规划能力:在WorldArena基准测试中,Pelican-Unified的想象组件以EWM Score 66.03排名第一,在3D Accuracy(98.13)和Motion Quality(62.69)两个空间一致性与物理合理性关键维度上均位列第一。

在盲评人类评估中,Pelican-Unified以1.76的平均分排名第一,Task Success得分1.81最高,Controllability获得满分2.00,领先最强视频扩散专家Seedance 2.0达0.21分,且是唯一在可控性、任务成功、时序一致性与物理合理性上同时表现优异的模型。
2,真实世界机器人评估

组合泛化能力:在UR5e机械臂平台上,模型仅以原子任务A(插RJ45)和任务B(防水)分别进行训练,测试时要求在无连续演示的情况下完成A+B组合任务序列。VLA基线在A→B过渡阶段失败,因其动作分布缺乏"A完成后应发生什么"的状态表示;Pelican-Unified的想象模块在训练中已学习每个原子动作对应的未来状态分布,能够渲染后A场景状态并重新条件化,动作面随状态执行。

生成的想象视频与真实执行视频在物理一致性上高度对齐,表明模型基于实际环境动力学进行预测而非幻觉。

零样本迁移能力:在天宫人形机器人平台上,模型在五个已见任务(平均300条视频-动作片段)与三个未见任务(仅50条视频序列)上进行联合训练评估。统一框架在已见任务上保持高保真执行,同时有效泛化至分布外场景,验证了具身智能基础模型的广泛适应性以及统一训练范式在跨领域迁移中的有效性。
总结
Pelican-Unified 1.0是首个基于统一训练范式的具身智能基础模型。
其核心创新在于将理解、推理、想象与行动构建为单一自适应闭环系统:视觉语言模型(VLM)同时执行统一理解与统一推理,将多模态上下文编码为共享语义表征并自回归生成任务导向的思维链,最终隐藏状态投影为稠密潜在变量;统一未来生成模块以为条件,在单一去噪过程中联合生成未来视频与动作,三种损失在共享表征上反向传播,实现协同优化。
局限方面,模型在长时序几何敏感任务(如悬挂杯子、垃圾桶插入)上仍有失败案例,统一范式的有效性仍需在更多具身形态与更复杂场景中进一步验证。
