阅读时间大约8分钟（3104字）

5小时前让机器人先学动作语言：LA4VLA 重新拆解 VLA 预训练

来源：豆包

出品：具身智能大讲堂如果要训练一个机器人根据语言完成操作，我们通常会想到一个很自然的方案：让模型同时看到图像、读到指令，并根据当前状态预测动作。这正是近年来Vi...

出品：具身智能大讲堂

如果要训练一个机器人根据语言完成操作，我们通常会想到一个很自然的方案：让模型同时看到图像、读到指令，并根据当前状态预测动作。这正是近年来 Vision-Language-Action（VLA）模型中最常见的训练范式。

不过，联合训练并不等于模型真的理解了语言。图像中往往包含目标位置、物体姿态、场景布局等直接线索，而语言指令在一整段示范中常常只出现一次。于是，一个看起来会执行指令的 VLA 策略，未必真正学清楚了“语言如何约束动作”。

LA4VLA: Learning to Act without Seeing via Language-Action Pretraining 正是围绕这一点展开。它提出的不是“机器人最终不需要视觉”，而是一个更具体的问题：能不能先把 language-action supervision 从标准 VLA pretraining 中拆出来，让模型在暂时没有视觉输入的阶段，先学习指令和动作轨迹之间的对应关系？

这样做的目的，是让模型先掌握更基础的动作语言规律：哪些动作词对应哪些局部操作，方向词如何影响末端运动，夹爪状态和持物状态又如何改变动作模式。之后再把这种能力与视觉 grounding结合，用于完整的 VLA 策略学习。

PART 01

标准 VLA 训练中，语言为什么容易“被看不见”？

在标准机器人示范中，一条轨迹通常包含大量连续视觉帧、机器人状态和动作序列，但自然语言部分往往只有一句高层任务描述。例如一句 “clean the table”，实际可能覆盖靠近物体、抓取、抬起、移动、放置等多个局部阶段。

这会造成一种数据层面的不对称：视觉和动作几乎每一帧都在变化，而语言在整条轨迹中基本保持不变。训练过程中，模型接触到的是大量密集的 visual-action 或 state-action 对，但局部动作阶段与具体语言成分之间的联系并没有被明确展开。

输入层面也类似。视觉观测通常被编码成大量 visual tokens，语言指令只占较小比例。对于动作预测而言，从图像中找到目标位置或场景线索往往更直接；相比之下，学习“语言如何决定动作方向和操作方式”反而可能被弱化。

因此，标准 VLA 策略在原始配对输入下表现良好，并不能完全说明它已经建立了稳定的语言-动作关系。真正需要验证的是：当视觉输入被移除、替换，甚至与语言发生冲突时，模型还会不会沿着语言指定的方向行动？

PART 02

当语言和视觉发生冲突，模型会跟谁走？

为了回答这个问题，LA4VLA 设计了一个方向跟随诊断实验。实验保持语言指令不变，只改变视觉输入，然后观察模型输出的动作轨迹是否仍然符合指令方向。

实验选取方向明确的原子指令，例如 “move upward to approach the target” 和 “move downward to approach the target”。随后构造四种输入设置：原始配对视觉、无视觉输入、同场景但不匹配的视觉输入，以及来自相反方向动作片段的冲突视觉输入。

在原始配对输入下，模型看起来确实能区分相反方向的指令：轨迹能够分开，端点也大致位于指令方向上。但一旦视觉被移除或替换，原本清晰的方向结构就迅速变弱，轨迹也变得更加混乱。

更关键的是冲突视觉设置。此时语言仍然要求模型朝某个方向运动，但视觉输入来自相反方向的动作片段。结果显示，模型预测出的轨迹更容易偏向视觉所暗示的方向，而不是语言给定的方向。换句话说，它并不是单纯变得不确定，而是在冲突中更倾向于跟随视觉线索。

这一现象说明，标准 VLA pretraining 可以带来表面上的 instruction following，但这种行为可能高度依赖原始配对视觉输入。若 language-action supervision 始终被包裹在视觉主导的训练过程中，模型就容易形成视觉捷径。

PART 03

LA4VLA：把语言-动作监督单独暴露出来

LA4VLA 的核心思路，是先从标准 VLA 训练中拆出一个 vision-agnostic 的 Language-Action Pretraining 阶段。

在这个阶段，模型不接收视觉输入，只根据语言指令和机器人状态预测连续动作轨迹。它不能依赖图像中的物体外观、目标位置或场景布局，只能从指令本身推断动作应该如何发生。

这里的监督不是粗粒度动作类别，而是更细致的局部语言描述与连续动作之间的对应关系。例如：

“Lower the object downward toward the target while holding it”

对应的是持物状态下，将物体朝目标方向下放；

“Transport the object to the right while holding it”

对应的是持物状态下，沿水平方向向右移动；

“Open gripper to release and place the object onto the target surface”

对应的是打开夹爪，将物体释放到目标表面。

这些描述不仅包含动作类型，还包含方向、夹爪状态、是否持物以及局部物理效果。它们尽量不依赖具体物体外观或场景布局，因此更适合作为跨任务、跨场景复用的 language-action regularities。

从这个角度看，LA4VLA 不是简单地往 VLA pretraining 中增加数据，而是在重新定义一个预训练信号：先让模型学习语言如何约束动作，再让视觉输入负责具体场景中的 grounding。

PART 04

LA-33K：把长轨迹拆成可训练的语言-动作片段

要做独立的 Language-Action Pretraining，首先需要相应的数据。LA4VLA 并没有重新采集机器人示范，而是对已有 VLA demonstrations 进行重新组织。

一条原始 VLA 轨迹通常只对应一条高层指令，但轨迹内部包含多个短时原子动作阶段。LA4VLA 将这些长轨迹切分成 atomic action segments，并为每个片段配上更局部的动作描述，使原本隐藏在完整示范中的语言-动作监督被显式提取出来。

具体构建过程中，方法结合关键帧检测、原子动作类别约束、VLM temporal segmentation 和人工核验，将标准 VLA 数据转化为 vision-agnostic 的 LA episodes。最终数据覆盖 move、grasp、lift、transport、place、reorient、lower 等常见操作类别。

最终得到的 LA-33K 包含 33,116 条经过人工核验的 Language-Action episodes，总计 1,524,990 帧，平均每条 episode 46.05 帧。与原始 VLA 轨迹相比，这些片段更短、更局部，也更适合直接学习指令与动作轨迹之间的关系。

也就是说，LA-33K 的核心价值不只是数据规模，而是让 language-action supervision 从标准 VLA demonstrations 中独立出来，成为一种可以单独训练、分析，并与 VLA pretraining 组合的监督信号。

PART 05

实验：移除视觉并没有削弱预训练，反而带来提升

LA4VLA 在仿真 benchmark、跨架构设置和真实机器人任务中都进行了验证。首先，单独 LA pretraining 就已经带来了明显收益。

在 LA4VLA-1B 上，MetaWorld 从 69.73% 提升到 83.00%（+13.27 pts），LIBERO 从 92.85% 提升到 95.30%（+2.45 pts）。

在 StarVLA 架构上，同样的 LA pretraining protocol 将 MetaWorld 从 58.39% 提升到 69.91%，将 LIBERO 从 93.70% 提升到 94.85%。

在真实机器人任务中，平均成功率从 38.3% 提升到 81.7%，提升达到 +43.4 pts。

这些结果说明，LA pretraining 学到的并不是某个特定模型或特定仿真环境里的偶然规律。即使在预训练阶段不使用视觉输入，模型仍然可以获得对下游 VLA 策略有帮助的语言-动作表示。

更直接的对比来自 matched VLA pretraining：在相同原子动作片段上，保留视觉输入做 VLA pretraining，效果反而不如移除视觉做 LA pretraining。MetaWorld 上，VLA 为 79.78%，LA 为 83.00%；LIBERO 上，VLA 为 94.40%，LA 为 95.30%。

这说明，移除视觉并不是简单减少信息，而是在预训练阶段改变了模型关注的监督信号。没有图像可依赖时，模型必须更集中地学习 instruction 与 action trajectory 的对应关系，而这种学习对后续策略更有帮助。

PART 06

LA 和 VLA 可以如何组合？

LA4VLA 进一步比较了多种预训练策略：No 表示直接下游微调；VLA 表示标准视觉-语言-动作预训练；LA 表示无视觉的语言-动作预训练；LA-VLA 表示先 LA 后 VLA；MixPT 表示在同一阶段混合 LA 与 VLA 数据。

在 MetaWorld 上，No 69.73% → LA 83.00% → LA-VLA 86.75% → MixPT 87.53%。在 LIBERO 上，No 92.85% → LA 95.30% → MixPT 95.75% → LA-VLA 96.28%。

真实机器人实验同样支持这一结论。Press Button、Place Book 和 Place Drink 三个任务都要求机器人根据语言目标选择正确操作对象或位置。平均成功率从 No 的 38.3% 提升到 VLA 的 48.3%，进一步达到 LA 的 81.7% 和 MixPT 的 83.3%。

在视觉扰动下，平均成功率也从 No 的 27.5% 提升到 VLA 的 42.5%、LA 的 67.5% 和 MixPT 的 70.0%。这表明 LA supervision 与 VLA supervision 并不是替代关系：前者提供更独立的语言-动作规律，后者提供视觉 grounding，二者可以互补。

PART 07

为什么说模型真的更懂“动作语言”？

除了最终成功率，LA4VLA 还进一步观察了模型的方向跟随行为和内部表示。

经过 LA pretraining 后，即使没有视觉输入，模型仍然可以根据相反方向指令预测出清晰分开的轨迹。这说明动作方向不再主要依赖配对视觉线索，而是更稳定地受到语言约束。

t-SNE 可视化也呈现出类似趋势：标准 VLA-trained policy 的表示中，不同方向指令容易混在一起；而 LA-pretrained policy 的表示会按照指令方向形成更清晰的聚类，相反方向也被分到不同区域。

换句话说，LA pretraining 改变的不只是最终成功率，也改变了模型在动作预测前形成表示的方式。它让模型内部更清楚地编码了 instruction-conditioned action patterns。

PART 08

总结：先拆开学，再合起来用

LA4VLA 的贡献不只是提出 LA-33K 数据集，也不只是给某个 VLA 模型增加一个训练阶段。它更重要的意义在于，把 Language-Action Pretraining 作为一个独立问题从标准 VLA Pretraining 中拆了出来。

方法层面，LA4VLA 提出 vision-agnostic language-action pretraining，让模型在无视觉输入下显式学习语言如何约束动作。

数据层面，LA-33K 从已有机器人示范中提取 33,116 条经过人工核验的 Language-Action episodes，不需要额外采集机器人数据。

训练层面，工作系统比较了 LA-only、sequential LA-to-VLA 和 mixed LA-VLA pretraining，验证 LA supervision 可以单独有效，也可以与 VLA supervision 互补。

实验层面，方法在 MetaWorld、LIBERO、StarVLA、真实机器人任务、视觉扰动鲁棒性、方向跟随和表示分析中得到验证。

VLA 模型最终当然需要看见世界，但这并不意味着所有能力都必须从视觉开始学。LA4VLA 的观点是：先让模型在没有视觉输入时学会语言如何约束动作，再把这种规律与视觉 grounding 结合起来，或许能让 VLA 策略在真实任务中更稳健。

Learning to Act without Seeing，并不是为了让机器人不看世界，而是为了让机器人在看见世界之后，能更好地用语言指导行动。

具身智能

${{item.author_display_name}}$

右键可直接复制图片

5小时前让机器人先学动作语言：LA4VLA 重新拆解 VLA 预训练

纬钛机器人完成新一轮Pre-A轮融资

源策未来完成数亿元种子轮融资

无界动力完成超2亿美元天使轮融资

立项仅8个月，这家机器人公司把"首秀"直接搬进了工厂产线

通用全身具身大脑公司「源策未来」获顶级机构数亿首轮融资，打造人形机器人OpenAI

纬钛机器人完成新一轮Pre-A轮融资

5小时前 让机器人先学动作语言：LA4VLA 重新拆解 VLA 预训练

{{item.post_title}}

纬钛机器人完成新一轮Pre-A轮融资

源策未来完成数亿元种子轮融资

无界动力完成超2亿美元天使轮融资

立项仅8个月，这家机器人公司把"首秀"直接搬进了工厂产线

通用全身具身大脑公司「源策未来」获顶级机构数亿首轮融资，打造人形机器人OpenAI

纬钛机器人完成新一轮Pre-A轮融资

5小时前让机器人先学动作语言：LA4VLA 重新拆解 VLA 预训练