北京人形机器人创新中心发布Pelican-Unified 1.0
统计 阅读时间大约3分钟(1049字)

11小时前 北京人形机器人创新中心发布Pelican-Unified 1.0

来源:豆包
首个统一具身基础模型,理解/推理/想象/行动四位一体

一句话概要

北京人形机器人创新中心(X-Humanoid)发布 Pelican-Unified 1.0,用单一模型把"看懂场景、推理任务、想象未来、执行动作"四个能力统一进同一个梯度回路——不再靠三个独立专家系统拼 PipeLine。

34a1c48899083f812b571d2e4e8e4223.png

为什么这件工作值得关注

具身智能走到现在,能力越来越强,但架构越来越碎。

看懂场景用 VLM,执行动作用 VLA,想象未来用世界模型——三个独立系统,靠 Pipeline 串起来。问题显而易见:感知、语言、动作分别编码,信息传递有损耗;推理是"语言独白",不受动作和想象约束;想象停留在像素层面,跟任务逻辑脱节。

"The field is not short of powerful components. What remains missing is a model in which understanding, reasoning, imagination, and action are learned as mutually conditioning parts of the same physical intelligence loop."

这句话是整篇论文的动机,也是标题里 "Unified" 的真正含义。

1f34b5e2ba546c8178baad1c60263822.png

核心架构:怎么把四件事统一起来

cb94f3ea6298c1d62cf3d3f6ee5a5d3c.png

Pelican-Unified 的架构可以拆成两大组件理解:

组件一:统一 VLM(理解 + 推理)

基于 Qwen3-VL 4B 初始化

输入:场景观测历史 + 历史动作 + 语言指令

先把多模态输入映射到共享语义空间(这是"统一理解")

然后自回归生成思维链轨迹 τ_t——涵盖任务意图、物理约束、未来后果、动作选择

关键点:这个推理轨迹不是事后解释,是具身生成过程的中间表示,会被下游生成损失反向约束

推理完成后,VLM 的隐藏状态经过一个投影层,输出一个稠密循环状态 z——这是整个模型最核心的耦合表示,后续视频生成和动作预测都条件于这个 z。

组件二:UFG 统一未来生成器(想象 + 动作)

efa268aab0ae39ab8043b986d8cc81ef.png

基于 Wan2.2-5B 初始化

关键设计:不用独立世界模型做视频预测、再用独立策略头做动作生成

而是把视频 token 与动作 token 嵌进同一个 Transformer 宽度,共享去噪过程

视频和动作使用相同的扩散时间步 s,由同一个 DiT 主干联合去噪

动作 token 在读出前还可以"回顾"想象的视觉 token(Action-Refine Read),让动作受想象后果约束

联合训练目标

三个损失同时反向传播至共享表示 z:

<L = λ_text · L_text + λ_video · L_video + λ_action · L_action

L_text:语言建模损失,对齐推理与任务语义

L_video:视频流匹配损失,迫使 z 对未来世界动态具有预测性

L_action:动作回归损失,将 z 锚定于可执行控制

这就是 "统一" 的实质性含义——不是三个模型拼在一起,而是三个能力的梯度在同一个表示上互相塑造。

实验结果:统一不等于妥协

论文在三类基准上分别评测,结论很明确:统一模型没有牺牲专家级性能。

理解能力(8 个 VLM 基准,平均得分)


6b56be287b5ac17513425df0892f072f.png



具身导向基准提升尤其显著:Where2Place +28.2,PhyX +20.6。说明联合训练没有损害、反而增强了空间物理推理能力。

想象能力(WorldArena 基准)


f0d22bccf9d50d4455f25fe12273c105.png



人工盲评四项指标(任务成功率、可控性、时序一致性、物理合理性),Pelican-Unified 平均 1.76 分(满分 2 分),排名第一,且是唯一四项同时优秀的模型。

动作能力(RoboTwin 50 任务双臂基准)


afa7d5bb45fa640e5ce49f9b60ce1813.png



50 个任务中,31 个达到 ≥95% 成功率,39 个达到 ≥90%。

技术溯源:X-Humanoid 团队的 Pelican 系列演进

这张脉络图值得单独说一下:


70f12a2c3cd37770da236ad17a499dbc.png



Pelican-Unified 本质上是把 Pelican-VL 的"理解大脑"装上"想象引擎"和"动作执行器",并用联合训练把三者焊死在同一个表示里。

资源直达

论文:https://arxiv.org/abs/2605.15153

项目主页(Pelican-VL):https://pelican-vl.github.io/

代码仓库:https://github.com/Open-X-Humanoid/pelican-vl

团队:Beijing Innovation Center of Humanoid Robotics (X-Humanoid)

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×