阅读时间大约8分钟（2968字）

2026-06-11 数据都没对齐怎么Scale？从这篇论文，我看见具身智能的“熵减”

来源：豆包

数据越来越多，是否真的越来越可用？具身智能赛道亟需一次数据层面的“熵减”。

出品：具身智能之心

当下AI、具身智能、世界模型的热度持续爆发，整个赛道处在野蛮扩张的状态。

新数据集、新的数据采集方式、新机器人本体、新任务场景不断涌现；数据时长、任务类型、硬件设备的数量翻倍增长；

然而，增长之下，也同样暴露下很多问题。数据、标准和体系的全面泛滥也非常突出，用“无序”来形容并不为过。

繁荣背后，一个更底层的问题正在显现：数据越来越多，是否真的越来越可用？

不同于文本可以统一为 token、图像拥有相对稳定的组织范式，符号式的数据相比于物理世界下的数据，可参考度不高。

机器人数据天然异构，包含多视角图像、深度信息、相机参数、关节状态、末端轨迹、语言指令和真实反馈等多维度信息；不同机器人本体、坐标系、操作节奏，以及 UMI、Egocentric data 等新型采集方式，又持续放大数据差异。

如果这些数据无法互通、无法统一训练、无法跨机迁移，数据规模越大，系统熵值将越高。这正是具身智能正在面对的“熵增”问题。

毫不夸张地说，野蛮生长之后，具身智能赛道亟需一次数据层面的“熵减”。

最近，跨维智能的最新研究精准切入该核心痛点构建数据基建——这是一次面向规模化训练的数据系统性工程：通过构建统一的感知—动作三维空间，并配套空间对齐、动作表达、时序规整和数据管线，让分散异构的具身数据具备统一训练和跨设备迁移的基础。

论文标题：Dexterity-BEV: Aligning 3D World and Actions for Generalizable Robot Policies Learning

论文地址：https://arxiv.org/abs/2606.02274

项目链接：https://hnuzhy.github.io/projects/Dex-BEV/

01 .

堆数据难破局，统一数据

是具身Scaling的根基

Scaling law之下，快速积累数据成为各家获取下一场话语权的资本。

然而，本体差异大，数据太异构、太难统一了。

当前主流 VLA / WAM 多建立在 2D 视觉语言模型之上，语义能力强、工程门槛低，但机器人操作本质发生在三维空间中。单纯依赖 2D RGB 输入，容易受到相机视角、机器人位置和场景布局变化影响，模型看似学会了任务，实际可能只是拟合了画面。

另一类 3D 表征路线试图补足空间能力，例如点云、体素、深度图或三维空间编码，但这类方法往往成本更高，也难以充分复用已有 2D VLM 在大规模图像和视频数据上积累的语义能力。

更关键的是，机器人数据本身缺少统一坐标：不同数据集有不同相机设置，不同机器人有不同本体结构，不同平台有不同工具中心点定义，不同操作者也有不同动作节奏。这些差异并不代表任务本质，却会被模型当成额外分布差异来学习。

因此，具身智能要真正进入规模化阶段，不能只靠继续堆数据、堆模型、堆算力。行业更需要一套数据基建，把分散异构的机器人数据统一到可训练、可迁移、可复用的物理表达中。Dexterity-BEV 切入的，正是这个底层问题。

02 .

为无序具身数据实现熵减，

Dexterity-BEV 撑起Scaling根基

空间熵减：

像素升维，统一真实三维物理空间

视觉视角混乱，是机器人数据无序的首要源头。同一个任务，在不同相机、不同机位、不同拍摄角度下，会呈现出完全不同的二维图像特征。对模型来说，如果没有三维对齐，它看到的不是同一个物理任务，而是一堆高度变化的视觉分布。

Dexterity-BEV 通过构建统一的 BEV 对齐坐标系（canonical BEV alignment frame），将多视角观察到的三维信息对齐到共享空间中。可以把它理解为一个“虚拟正交相机”：从机器人操作区域上方观察任务场景，把不同相机看到的物体、空间关系和操作目标，统一映射到同一个俯视参考系中。这样一来，相机视角变化带来的表征漂移被显著削弱。不同机位、不同视角下采集的数据，不再只是互不兼容的图像，而可以被转化为同一物理空间中的可学习表达。

为了适配真实场景中多样化的硬件条件，Dexterity-BEV 并没有把方案绑定在特定传感器上。对于具备深度信息的设备，它可以直接利用深度图和相机标定生成像素级三维顶点表示；对于更常见的纯 RGB 相机，它则通过顶点谱（vertex spectrum）机制，为每个像素构建一组可能的三维位置，并用轻量级位置编码注入视觉特征中。这样一来，模型可以在尽量保留现有 RGB 视觉模型能力的同时，获得三维空间感知能力，以较小额外开销完成从二维图像特征到三维物理表达的升维。

本体熵减：

全局坐标统一，打通跨机器人壁垒

解决视觉视角的混乱之后，具身数据还面临更深一层的差异：操作主体并不统一。

不同机器人有不同尺寸、结构、自由度和运动学参数，各自的坐标系、工具中心点定义也不相同。即使执行同一个“拿起物体”的任务，A 机器人产生的关节轨迹，往往无法直接迁移到 B 机器人上。随着 UMI、人类第一视角数据等新型采集方式出现，这种差异还会进一步扩大：不同人的身高、臂展、视角和动作习惯，本质上也像一种“异构本体”。

Dexterity-BEV 的关键做法，一个是用末端执行器位姿替代关节角，并且把不同本体的状态与动作，进一步对齐到前文提到的统一的 BEV 对齐坐标系（canonical BEV alignment frame）中。也就是说，模型不再直接学习某个具体关节应该转多少度，而是学习末端执行器在统一三维参考系中应该到达哪里、以什么姿态接近物体、如何移动、如何完成任务。

为此，Dexterity-BEV 通过统一工具中心点约定、机器人模型注册和正向运动学计算，将不同机器人平台的本体状态和目标动作，转化为统一 BEV 参考系下的三维末端位姿。通俗来说，它给不同机器人、不同相机、不同动作提供了一把共同的“空间尺子”。

这也是模型能够实现跨机器人泛化的核心关键，解决了硬件异构带来的数据分布偏移问题，大幅降低新设备的微调成本，让一套模型适配多类机器人成为可能。

时序熵减：

抹平操作节奏，规整长序列动作数据

机器人数据的第三重混乱，来自轨迹时间尺度的不一致。不同机器人平台的运动速度不同，不同遥操作员的动作快慢、停顿节奏和操作习惯也不同。即使是同一个任务，也可能生成长度、速度和节奏差异很大的动作轨迹。这些差异并不一定反映任务本质，却会增加模型学习难度。

Dexterity-BEV 针对这一问题引入跨轨迹时序对齐机制。其核心不是抹掉任务本身的动作结构，而是在多数机器人操作近似“准静态”的前提下，对末端执行器速度进行标准化，并重新规整轨迹关键点对应的物理时间。这样，不同机器人、不同操作者、不同数据集中的轨迹，可以在更一致的时间尺度下进入训练。

经过时序对齐后，模型不必过度拟合“某个人操作快还是慢”“某个平台执行速度高还是低”这类偶然差异，而可以更专注于学习任务完成过程中的关键动作顺序、空间关系和操作逻辑

空间、本体和时序三层对齐，共同构成了 Dexterity-BEV 的数据熵减逻辑：保留有价值的差异，消除无意义的差异。

03 .

极致实测性能，全面超越业内基线

目前绝大多数具身研究的实测场景都比较保守，基本围绕常规的抓取、放置等简单短任务展开，依靠固定场景适配就能跑出不错的分数，很难检验模型的真实能力。但Dex-BEV刻意选用了长时序交互、动态扰动、跨设备适配等高难度场景，用更贴近落地实际的复杂任务来客观验证模型性能。

在仿真极限扰动测试中，团队模拟视角偏移、物体变动、位置随机、长时序操作等真实复杂工况。传统2D VLA模型适配性极差，任务成功率直接跌至10%以下，彻底暴露二维表征的天然缺陷。而Dex-BEV在四类扰动任务中分别取得92.8%、89.4%、91.0%、86.2%的成功率，平均成功率达89.9%，抗扰动能力全方位领先主流2D方案。

本研究还依托四类差异化双臂硬件平台，测试布料折叠、礼盒装配、爆米花舀取、书籍交接等易形变、强动态、长时序的高难度实操任务。这类场景是传统模型的短板，极易出现轨迹偏移、操作失效等问题。实测结果显示，Dex-BEV全面优于π₀、X-VLA等顶尖模型，多项任务成功率突破90%，展现出极强的跨硬件适配能力，真正实现一次训练、多机复用。