阅读时间大约3分钟（1049字）

2026-05-22 北京人形机器人创新中心发布Pelican-Unified 1.0

来源：豆包

首个统一具身基础模型，理解/推理/想象/行动四位一体

一句话概要

北京人形机器人创新中心（X-Humanoid）发布 Pelican-Unified 1.0，用单一模型把"看懂场景、推理任务、想象未来、执行动作"四个能力统一进同一个梯度回路——不再靠三个独立专家系统拼 PipeLine。

为什么这件工作值得关注

具身智能走到现在，能力越来越强，但架构越来越碎。

看懂场景用 VLM，执行动作用 VLA，想象未来用世界模型——三个独立系统，靠 Pipeline 串起来。问题显而易见：感知、语言、动作分别编码，信息传递有损耗；推理是"语言独白"，不受动作和想象约束；想象停留在像素层面，跟任务逻辑脱节。

"The field is not short of powerful components. What remains missing is a model in which understanding, reasoning, imagination, and action are learned as mutually conditioning parts of the same physical intelligence loop."

这句话是整篇论文的动机，也是标题里 "Unified" 的真正含义。

核心架构：怎么把四件事统一起来

Pelican-Unified 的架构可以拆成两大组件理解：

组件一：统一 VLM（理解 + 推理）

基于 Qwen3-VL 4B 初始化

输入：场景观测历史 + 历史动作 + 语言指令

先把多模态输入映射到共享语义空间（这是"统一理解"）

然后自回归生成思维链轨迹 τ_t——涵盖任务意图、物理约束、未来后果、动作选择

关键点：这个推理轨迹不是事后解释，是具身生成过程的中间表示，会被下游生成损失反向约束

推理完成后，VLM 的隐藏状态经过一个投影层，输出一个稠密循环状态 z——这是整个模型最核心的耦合表示，后续视频生成和动作预测都条件于这个 z。

组件二：UFG 统一未来生成器（想象 + 动作）

基于 Wan2.2-5B 初始化

关键设计：不用独立世界模型做视频预测、再用独立策略头做动作生成

而是把视频 token 与动作 token 嵌进同一个 Transformer 宽度，共享去噪过程

视频和动作使用相同的扩散时间步 s，由同一个 DiT 主干联合去噪

动作 token 在读出前还可以"回顾"想象的视觉 token（Action-Refine Read），让动作受想象后果约束

联合训练目标

三个损失同时反向传播至共享表示 z：

<L = λ_text · L_text + λ_video · L_video + λ_action · L_action

L_text：语言建模损失，对齐推理与任务语义

L_video：视频流匹配损失，迫使 z 对未来世界动态具有预测性

L_action：动作回归损失，将 z 锚定于可执行控制

这就是 "统一" 的实质性含义——不是三个模型拼在一起，而是三个能力的梯度在同一个表示上互相塑造。

实验结果：统一不等于妥协

论文在三类基准上分别评测，结论很明确：统一模型没有牺牲专家级性能。

理解能力（8 个 VLM 基准，平均得分）

具身导向基准提升尤其显著：Where2Place +28.2，PhyX +20.6。说明联合训练没有损害、反而增强了空间物理推理能力。

想象能力（WorldArena 基准）

人工盲评四项指标（任务成功率、可控性、时序一致性、物理合理性），Pelican-Unified 平均 1.76 分（满分 2 分），排名第一，且是唯一四项同时优秀的模型。

动作能力（RoboTwin 50 任务双臂基准）

50 个任务中，31 个达到 ≥95% 成功率，39 个达到 ≥90%。

技术溯源：X-Humanoid 团队的 Pelican 系列演进

这张脉络图值得单独说一下：

Pelican-Unified 本质上是把 Pelican-VL 的"理解大脑"装上"想象引擎"和"动作执行器"，并用联合训练把三者焊死在同一个表示里。

资源直达

论文：https://arxiv.org/abs/2605.15153

项目主页（Pelican-VL）：https://pelican-vl.github.io/

代码仓库：https://github.com/Open-X-Humanoid/pelican-vl

团队：Beijing Innovation Center of Humanoid Robotics (X-Humanoid)

${{item.author_display_name}}$

右键可直接复制图片

2026-05-22 北京人形机器人创新中心发布Pelican-Unified 1.0

星凡智能完成新一轮超3亿融资

生数科技获新一轮5亿美金融资

星动纪元完成新一轮10亿元融资

48小时挑战机器边界！「探月计划黑客松」200位选手有惊喜

开创可信具身智能架构新范式，Xspark AI获亿元天使轮融资，加速Physical AI规模化落地

VLA 给出动作以后，机器人为什么还不能直接动？

2026-05-22 北京人形机器人创新中心发布Pelican-Unified 1.0

{{item.post_title}}

星凡智能完成新一轮超3亿融资

生数科技获新一轮5亿美金融资

星动纪元完成新一轮10亿元融资

48小时挑战机器边界！「探月计划黑客松」200位选手有惊喜

开创可信具身智能架构新范式，Xspark AI获亿元天使轮融资，加速Physical AI规模化落地

VLA 给出动作以后，机器人为什么还不能直接动？