阅读时间大约6分钟（2191字）

2026-05-26 AtomicVLA：让机器人像搭积木一样组合原子技能。

来源：豆包

技能引导的混合专家架构，实现长程任务规划与持续学习新技能的双重突破。

出品：具身智能制造

当前视觉-语言-动作（VLA）模型在单步操作任务上表现出色，但面对真实世界中复杂的长程、多步任务时，往往力不从心。更棘手的是，当机器人需要持续学习新技能时，现有模型采用单一动作解码器，在聚合数据上训练，导致技能间严重干扰和灾难性遗忘——仿佛一个学生在学习新知识的同时，不断遗忘旧知识。

中山大学与影王智能科技联合团队提出的 AtomicVLA，从根本上改变了这一范式。它将机器人任务分解为原子技能（如pick、place、open、close、turn），通过技能引导的混合专家架构（SG-MoE）构建可扩展的技能库，并统一任务规划与动作执行，让机器人既能完成复杂长程任务，又能持续学习而不遗忘。

核心架构：思考-行动统一框架

「论文图 2（a）：AtomicVLA流程」

该图展示了AtomicVLA的完整流程：VLM根据当前状态自适应地在"思考模式"和"行动模式"之间切换。思考模式生成任务链和原子技能抽象；行动模式根据技能抽象动态选择对应专家生成精细动作。

双模式自适应切换

AtomicVLA引入两个特殊token——[think] 和 [act]，实现思考与行动的无缝切换：

[think]模式：在任务初始化或子技能转换时激活。VLM生成高层任务链C_0-k、当前执行进度C_t、以及原子技能抽象σ（如"pick"、"place"等）

[act]模式：根据最近的原子技能抽象σ和当前本体感知状态，生成具体的低层动作块

「论文图 3：推理示例」

该图展示了两个LIBERO-LONG任务的推理过程。在"打开炉子并放置咖啡壶"任务中，AtomicVLA依次激活turn、pick、place专家；在"将黄色杯子放入微波炉并关闭"任务中，依次激活pick、place、close专家。每个原子子任务开始时触发[think]生成技能抽象，随后[act]调用对应专家执行。

SG-MoE：技能引导的混合专家架构

「论文图 2（b）：SG-MoE结构」

该图展示了SG-MoE的三个核心组件：技能路由器、共享专家、多个原子技能专家。

原子技能嵌入

每个原子技能被映射到一个标量噪声级别σ∈[0,100]，类似于扩散模型中的噪声调度。这一标量经嵌入函数映射为高维向量Z_σ，作为技能路由器的条件信号。

路由器设计

路由器计算各专家的概率分布，采用稀疏激活策略——仅选择得分最高的专家：

最终动作为共享专家与选定原子专家的加权组合：

这种设计既保留了π0的强泛化能力（共享专家），又通过专用专家实现了高精度技能执行。

五大原子技能

「论文表 6：LIBERO数据集中的原子技能分布」

持续学习：技能库即插即用扩展

「论文图 2（c）：持续学习技能扩展」

当新技能引入时，仅需添加对应专家和扩展路由器，已有专家保持不变。扩展路由器通过复制原始路由器权重初始化，新分支用小随机值初始化——这允许模型以最小微调适应扩大的技能集，同时保留已有技能性能。

关键优势：

仅训练新专家：已有专家完全冻结

最小微调：路由器扩展后仅需少量迭代

零遗忘：原有技能性能不受影响

任务规划数据生成：主成分分析

「论文图 2（d）：任务规划具身数据生成」

为确保高质量的原子动作标注，AtomicVLA提出基于主成分分析（PCA）的轨迹分解方法：

1. 运动分割：分析末端执行器轨迹的关键运动维度（平移位移Δx/Δy/Δz、旋转变化Δroll/Δpitch/Δyaw、夹爪状态），识别主导运动模式

2. 语义标注：利用InternVideo2.5模型解读对应视频片段，自动校正和丰富初始原子动作标注

3. 推理链构建：将精炼标签与完整轨迹对齐，构建包含原子动作序列和后续步骤高层计划的结构化推理链

实验验证：仿真与真实世界全面领先

LIBERO基准

「论文表 1：LIBERO性能对比」

AtomicVLA在LIBERO-LONG上达到95.2%，比π0（85.2%）提升10%。AtomicVLA（使用更大数据集）达到97.8%平均成功率。

CALVIN长程任务

「论文表 2：CALVIN长程操作评估」

AtomicVLA平均任务长度4.09，比π0（3.87）提升0.22；AtomicVLA达4.27，比π0.5（4.02）提升0.25。后三阶段任务完成率相对提升5.8%-6.6%。

真实世界长程任务

「论文表 3：真实世界长程多任务实验」

AtomicVLA比π0提升20%，AtomicVLA比π0.5提升18.3%。涉及关门操作的任务优势尤为明显。

「论文图 5：执行过程对比」

该图展示了AtomicVLA与π0.5在执行"将盘子放入微波炉并关门"和"打开抽屉放入方块"任务时的对比。AtomicVLA可靠完成π0.5无法完成的实验配置。

持续学习

「论文表 4：持续学习技能扩展」

π0.5在持续学习后平均下降15%（堆叠任务下降20%）；AtomicVLA仅下降1.3%，几乎无遗忘。新增"打开"技能后，五任务整体平均提升21%。

「论文图 6：技能干扰与持续学习退化」

上图展示了多技能联合训练中的干扰：单技能执行成功，混合训练后失败。下图展示了持续学习后的退化：π0.5学习新技能后夹爪关闭不及时，而AtomicVLA保持稳定。

消融实验：SG-MoE的有效性

「论文表 5：路由机制消融」

标准MoE（token级路由）：88.6%，仅比基线提升3.4%

MoDE（时间步条件专家）：89.5%，提升有限

SG-MoE（技能抽象路由）：95.2%，比MoE提升6.6%，比MoDE提升5.7%

关键洞察：token级或时间步级路由只能实现负载均衡，每个专家仍学习混合技能；而SG-MoE以语义有意义的原子技能作为路由标准，确保同一技能阶段的所有token由对应专家一致处理。

错误恢复能力

「论文图 4：错误恢复演示」

当遇到执行失败（如黄油被抓取后掉落），AtomicVLA能检测任务异常，重新生成原子技能抽象，并从错误中恢复继续执行。这种自检-恢复能力是长程任务成功的关键保障。

研究启示

1. 原子技能抽象是长程任务的基石：将复杂任务分解为pick/place/open/close/turn等原子技能，天然匹配多阶段机器人任务的结构

2. 语义级路由优于token级路由：以原子技能（而非单个token或时间步）作为路由标准，才能实现真正的专家特化

3. 解耦技能学习消除干扰：每个专家专注单一技能，避免异构任务间的交叉干扰

4. 模块化架构支持终身学习：新增技能只需添加专家和扩展路由器，无需重训练整个模型

AtomicVLA的核心价值在于将机器人学习从"端到端黑盒"转变为"结构化技能组合"。通过SG-MoE架构，它既保留了VLA模型的强大泛化能力，又赋予了系统可解释、可扩展、可持续学习的特性。在仿真和真实世界的全面验证表明，原子技能抽象和动态专家组合是支持长程任务完成和终身技能积累的有效范式。随着机器人应用场景的日益复杂，这种"搭积木"式的技能组合方法将成为构建通用机器人智能的重要基石。

本文内容整理自学术论文：《AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots》，仅作学术分享使用，版权归原作者及出版方所有。

论文作者：Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang

发表单位：中山大学、鹏城实验室、影王智能科技有限公司

项目主页：https://atomic-vla.github.io