阅读时间大约8分钟(3104字)
出品:具身智能大讲堂
如果要训练一个机器人根据语言完成操作,我们通常会想到一个很自然的方案:让模型同时看到图像、读到指令,并根据当前状态预测动作。这正是近年来 Vision-Language-Action(VLA)模型中最常见的训练范式。
不过,联合训练并不等于模型真的理解了语言。图像中往往包含目标位置、物体姿态、场景布局等直接线索,而语言指令在一整段示范中常常只出现一次。于是,一个看起来会执行指令的 VLA 策略,未必真正学清楚了“语言如何约束动作”。
LA4VLA: Learning to Act without Seeing via Language-Action Pretraining 正是围绕这一点展开。它提出的不是“机器人最终不需要视觉”,而是一个更具体的问题:能不能先把 language-action supervision 从标准 VLA pretraining 中拆出来,让模型在暂时没有视觉输入的阶段,先学习指令和动作轨迹之间的对应关系?
这样做的目的,是让模型先掌握更基础的动作语言规律:哪些动作词对应哪些局部操作,方向词如何影响末端运动,夹爪状态和持物状态又如何改变动作模式。之后再把这种能力与视觉 grounding结合,用于完整的 VLA 策略学习。

PART 01
标准 VLA 训练中,语言为什么容易“被看不见”?
在标准机器人示范中,一条轨迹通常包含大量连续视觉帧、机器人状态和动作序列,但自然语言部分往往只有一句高层任务描述。例如一句 “clean the table”,实际可能覆盖靠近物体、抓取、抬起、移动、放置等多个局部阶段。
这会造成一种数据层面的不对称:视觉和动作几乎每一帧都在变化,而语言在整条轨迹中基本保持不变。训练过程中,模型接触到的是大量密集的 visual-action 或 state-action 对,但局部动作阶段与具体语言成分之间的联系并没有被明确展开。
输入层面也类似。视觉观测通常被编码成大量 visual tokens,语言指令只占较小比例。对于动作预测而言,从图像中找到目标位置或场景线索往往更直接;相比之下,学习“语言如何决定动作方向和操作方式”反而可能被弱化。
因此,标准 VLA 策略在原始配对输入下表现良好,并不能完全说明它已经建立了稳定的语言-动作关系。真正需要验证的是:当视觉输入被移除、替换,甚至与语言发生冲突时,模型还会不会沿着语言指定的方向行动?
PART 02
当语言和视觉发生冲突,模型会跟谁走?
为了回答这个问题,LA4VLA 设计了一个方向跟随诊断实验。实验保持语言指令不变,只改变视觉输入,然后观察模型输出的动作轨迹是否仍然符合指令方向。
实验选取方向明确的原子指令,例如 “move upward to approach the target” 和 “move downward to approach the target”。随后构造四种输入设置:原始配对视觉、无视觉输入、同场景但不匹配的视觉输入,以及来自相反方向动作片段的冲突视觉输入。

在原始配对输入下,模型看起来确实能区分相反方向的指令:轨迹能够分开,端点也大致位于指令方向上。但一旦视觉被移除或替换,原本清晰的方向结构就迅速变弱,轨迹也变得更加混乱。
更关键的是冲突视觉设置。此时语言仍然要求模型朝某个方向运动,但视觉输入来自相反方向的动作片段。结果显示,模型预测出的轨迹更容易偏向视觉所暗示的方向,而不是语言给定的方向。换句话说,它并不是单纯变得不确定,而是在冲突中更倾向于跟随视觉线索。
这一现象说明,标准 VLA pretraining 可以带来表面上的 instruction following,但这种行为可能高度依赖原始配对视觉输入。若 language-action supervision 始终被包裹在视觉主导的训练过程中,模型就容易形成视觉捷径。
PART 03
LA4VLA:把语言-动作监督单独暴露出来
LA4VLA 的核心思路,是先从标准 VLA 训练中拆出一个 vision-agnostic 的 Language-Action Pretraining 阶段。
在这个阶段,模型不接收视觉输入,只根据语言指令和机器人状态预测连续动作轨迹。它不能依赖图像中的物体外观、目标位置或场景布局,只能从指令本身推断动作应该如何发生。
这里的监督不是粗粒度动作类别,而是更细致的局部语言描述与连续动作之间的对应关系。例如:
“Lower the object downward toward the target while holding it”
对应的是持物状态下,将物体朝目标方向下放;
“Transport the object to the right while holding it”
对应的是持物状态下,沿水平方向向右移动;
“Open gripper to release and place the object onto the target surface”
对应的是打开夹爪,将物体释放到目标表面。
这些描述不仅包含动作类型,还包含方向、夹爪状态、是否持物以及局部物理效果。它们尽量不依赖具体物体外观或场景布局,因此更适合作为跨任务、跨场景复用的 language-action regularities。
从这个角度看,LA4VLA 不是简单地往 VLA pretraining 中增加数据,而是在重新定义一个预训练信号:先让模型学习语言如何约束动作,再让视觉输入负责具体场景中的 grounding。
PART 04
LA-33K:把长轨迹拆成可训练的语言-动作片段
要做独立的 Language-Action Pretraining,首先需要相应的数据。LA4VLA 并没有重新采集机器人示范,而是对已有 VLA demonstrations 进行重新组织。
一条原始 VLA 轨迹通常只对应一条高层指令,但轨迹内部包含多个短时原子动作阶段。LA4VLA 将这些长轨迹切分成 atomic action segments,并为每个片段配上更局部的动作描述,使原本隐藏在完整示范中的语言-动作监督被显式提取出来。
具体构建过程中,方法结合关键帧检测、原子动作类别约束、VLM temporal segmentation 和人工核验,将标准 VLA 数据转化为 vision-agnostic 的 LA episodes。最终数据覆盖 move、grasp、lift、transport、place、reorient、lower 等常见操作类别。

最终得到的 LA-33K 包含 33,116 条经过人工核验的 Language-Action episodes,总计 1,524,990 帧,平均每条 episode 46.05 帧。与原始 VLA 轨迹相比,这些片段更短、更局部,也更适合直接学习指令与动作轨迹之间的关系。
也就是说,LA-33K 的核心价值不只是数据规模,而是让 language-action supervision 从标准 VLA demonstrations 中独立出来,成为一种可以单独训练、分析,并与 VLA pretraining 组合的监督信号。
PART 05
实验:移除视觉并没有削弱预训练,反而带来提升
LA4VLA 在仿真 benchmark、跨架构设置和真实机器人任务中都进行了验证。首先,单独 LA pretraining 就已经带来了明显收益。
在 LA4VLA-1B 上,MetaWorld 从 69.73% 提升到 83.00%(+13.27 pts),LIBERO 从 92.85% 提升到 95.30%(+2.45 pts)。
在 StarVLA 架构上,同样的 LA pretraining protocol 将 MetaWorld 从 58.39% 提升到 69.91%,将 LIBERO 从 93.70% 提升到 94.85%。
在真实机器人任务中,平均成功率从 38.3% 提升到 81.7%,提升达到 +43.4 pts。
这些结果说明,LA pretraining 学到的并不是某个特定模型或特定仿真环境里的偶然规律。即使在预训练阶段不使用视觉输入,模型仍然可以获得对下游 VLA 策略有帮助的语言-动作表示。
更直接的对比来自 matched VLA pretraining:在相同原子动作片段上,保留视觉输入做 VLA pretraining,效果反而不如移除视觉做 LA pretraining。MetaWorld 上,VLA 为 79.78%,LA 为 83.00%;LIBERO 上,VLA 为 94.40%,LA 为 95.30%。
这说明,移除视觉并不是简单减少信息,而是在预训练阶段改变了模型关注的监督信号。没有图像可依赖时,模型必须更集中地学习 instruction 与 action trajectory 的对应关系,而这种学习对后续策略更有帮助。

PART 06
LA 和 VLA 可以如何组合?
LA4VLA 进一步比较了多种预训练策略:No 表示直接下游微调;VLA 表示标准视觉-语言-动作预训练;LA 表示无视觉的语言-动作预训练;LA-VLA 表示先 LA 后 VLA;MixPT 表示在同一阶段混合 LA 与 VLA 数据。
在 MetaWorld 上,No 69.73% → LA 83.00% → LA-VLA 86.75% → MixPT 87.53%。在 LIBERO 上,No 92.85% → LA 95.30% → MixPT 95.75% → LA-VLA 96.28%。
真实机器人实验同样支持这一结论。Press Button、Place Book 和 Place Drink 三个任务都要求机器人根据语言目标选择正确操作对象或位置。平均成功率从 No 的 38.3% 提升到 VLA 的 48.3%,进一步达到 LA 的 81.7% 和 MixPT 的 83.3%。
在视觉扰动下,平均成功率也从 No 的 27.5% 提升到 VLA 的 42.5%、LA 的 67.5% 和 MixPT 的 70.0%。这表明 LA supervision 与 VLA supervision 并不是替代关系:前者提供更独立的语言-动作规律,后者提供视觉 grounding,二者可以互补。
PART 07
为什么说模型真的更懂“动作语言”?
除了最终成功率,LA4VLA 还进一步观察了模型的方向跟随行为和内部表示。
经过 LA pretraining 后,即使没有视觉输入,模型仍然可以根据相反方向指令预测出清晰分开的轨迹。这说明动作方向不再主要依赖配对视觉线索,而是更稳定地受到语言约束。

t-SNE 可视化也呈现出类似趋势:标准 VLA-trained policy 的表示中,不同方向指令容易混在一起;而 LA-pretrained policy 的表示会按照指令方向形成更清晰的聚类,相反方向也被分到不同区域。
换句话说,LA pretraining 改变的不只是最终成功率,也改变了模型在动作预测前形成表示的方式。它让模型内部更清楚地编码了 instruction-conditioned action patterns。
PART 08
总结:先拆开学,再合起来用
LA4VLA 的贡献不只是提出 LA-33K 数据集,也不只是给某个 VLA 模型增加一个训练阶段。它更重要的意义在于,把 Language-Action Pretraining 作为一个独立问题从标准 VLA Pretraining 中拆了出来。
方法层面,LA4VLA 提出 vision-agnostic language-action pretraining,让模型在无视觉输入下显式学习语言如何约束动作。
数据层面,LA-33K 从已有机器人示范中提取 33,116 条经过人工核验的 Language-Action episodes,不需要额外采集机器人数据。
训练层面,工作系统比较了 LA-only、sequential LA-to-VLA 和 mixed LA-VLA pretraining,验证 LA supervision 可以单独有效,也可以与 VLA supervision 互补。
实验层面,方法在 MetaWorld、LIBERO、StarVLA、真实机器人任务、视觉扰动鲁棒性、方向跟随和表示分析中得到验证。
VLA 模型最终当然需要看见世界,但这并不意味着所有能力都必须从视觉开始学。LA4VLA 的观点是:先让模型在没有视觉输入时学会语言如何约束动作,再把这种规律与视觉 grounding 结合起来,或许能让 VLA 策略在真实任务中更稳健。
Learning to Act without Seeing,并不是为了让机器人不看世界,而是为了让机器人在看见世界之后,能更好地用语言指导行动。
