数据都没对齐怎么Scale?从这篇论文,我看见具身智能的“熵减”
统计 阅读时间大约8分钟(2968字)

6小时前 数据都没对齐怎么Scale?从这篇论文,我看见具身智能的“熵减”

来源:豆包
数据越来越多,是否真的越来越可用?具身智能赛道亟需一次数据层面的“熵减”。

出品:具身智能之心

当下AI、具身智能、世界模型的热度持续爆发,整个赛道处在野蛮扩张的状态。

新数据集、新的数据采集方式、新机器人本体、新任务场景不断涌现;数据时长、任务类型、硬件设备的数量翻倍增长;

然而,增长之下,也同样暴露下很多问题。数据、标准和体系的全面泛滥也非常突出,用“无序”来形容并不为过。

繁荣背后,一个更底层的问题正在显现:数据越来越多,是否真的越来越可用?

不同于文本可以统一为 token、图像拥有相对稳定的组织范式,符号式的数据相比于物理世界下的数据,可参考度不高。

机器人数据天然异构,包含多视角图像、深度信息、相机参数、关节状态、末端轨迹、语言指令和真实反馈等多维度信息;不同机器人本体、坐标系、操作节奏,以及 UMI、Egocentric data 等新型采集方式,又持续放大数据差异。

如果这些数据无法互通、无法统一训练、无法跨机迁移,数据规模越大,系统熵值将越高。这正是具身智能正在面对的“熵增”问题。

毫不夸张地说,野蛮生长之后,具身智能赛道亟需一次数据层面的“熵减”。

最近,跨维智能的最新研究精准切入该核心痛点构建数据基建——这是一次面向规模化训练的数据系统性工程:通过构建统一的感知—动作三维空间,并配套空间对齐、动作表达、时序规整和数据管线,让分散异构的具身数据具备统一训练和跨设备迁移的基础。

a8e38e03eee15434fde6cbdfb8dd9073.jpg

论文标题:Dexterity-BEV: Aligning 3D World and Actions for Generalizable Robot Policies Learning

论文地址:https://arxiv.org/abs/2606.02274

项目链接:https://hnuzhy.github.io/projects/Dex-BEV/

01 .

堆数据难破局,统一数据

是具身Scaling的根基

Scaling law之下,快速积累数据成为各家获取下一场话语权的资本。

然而,本体差异大,数据太异构、太难统一了。

当前主流 VLA / WAM 多建立在 2D 视觉语言模型之上,语义能力强、工程门槛低,但机器人操作本质发生在三维空间中。单纯依赖 2D RGB 输入,容易受到相机视角、机器人位置和场景布局变化影响,模型看似学会了任务,实际可能只是拟合了画面。

另一类 3D 表征路线试图补足空间能力,例如点云、体素、深度图或三维空间编码,但这类方法往往成本更高,也难以充分复用已有 2D VLM 在大规模图像和视频数据上积累的语义能力。

更关键的是,机器人数据本身缺少统一坐标:不同数据集有不同相机设置,不同机器人有不同本体结构,不同平台有不同工具中心点定义,不同操作者也有不同动作节奏。这些差异并不代表任务本质,却会被模型当成额外分布差异来学习。

因此,具身智能要真正进入规模化阶段,不能只靠继续堆数据、堆模型、堆算力。行业更需要一套数据基建,把分散异构的机器人数据统一到可训练、可迁移、可复用的物理表达中。Dexterity-BEV 切入的,正是这个底层问题。

72e07497b77d0e437897233e478ce1c9.png

02 .

为无序具身数据实现熵减,

Dexterity-BEV 撑起Scaling根基

空间熵减:

像素升维,统一真实三维物理空间

视觉视角混乱,是机器人数据无序的首要源头。同一个任务,在不同相机、不同机位、不同拍摄角度下,会呈现出完全不同的二维图像特征。对模型来说,如果没有三维对齐,它看到的不是同一个物理任务,而是一堆高度变化的视觉分布。

Dexterity-BEV 通过构建统一的 BEV 对齐坐标系(canonical BEV alignment frame),将多视角观察到的三维信息对齐到共享空间中。可以把它理解为一个“虚拟正交相机”:从机器人操作区域上方观察任务场景,把不同相机看到的物体、空间关系和操作目标,统一映射到同一个俯视参考系中。这样一来,相机视角变化带来的表征漂移被显著削弱。不同机位、不同视角下采集的数据,不再只是互不兼容的图像,而可以被转化为同一物理空间中的可学习表达。

为了适配真实场景中多样化的硬件条件,Dexterity-BEV 并没有把方案绑定在特定传感器上。对于具备深度信息的设备,它可以直接利用深度图和相机标定生成像素级三维顶点表示;对于更常见的纯 RGB 相机,它则通过顶点谱 (vertex spectrum) 机制,为每个像素构建一组可能的三维位置,并用轻量级位置编码注入视觉特征中。这样一来,模型可以在尽量保留现有 RGB 视觉模型能力的同时,获得三维空间感知能力,以较小额外开销完成从二维图像特征到三维物理表达的升维。

40745472e367d895723870739d72cd32.png

本体熵减:

全局坐标统一,打通跨机器人壁垒

解决视觉视角的混乱之后,具身数据还面临更深一层的差异:操作主体并不统一。

不同机器人有不同尺寸、结构、自由度和运动学参数,各自的坐标系、工具中心点定义也不相同。即使执行同一个“拿起物体”的任务,A 机器人产生的关节轨迹,往往无法直接迁移到 B 机器人上。随着 UMI、人类第一视角数据等新型采集方式出现,这种差异还会进一步扩大:不同人的身高、臂展、视角和动作习惯,本质上也像一种“异构本体”。

Dexterity-BEV 的关键做法,一个是用末端执行器位姿替代关节角,并且把不同本体的状态与动作,进一步对齐到前文提到的统一的 BEV 对齐坐标系 (canonical BEV alignment frame)中。也就是说,模型不再直接学习某个具体关节应该转多少度,而是学习末端执行器在统一三维参考系中应该到达哪里、以什么姿态接近物体、如何移动、如何完成任务。

为此,Dexterity-BEV 通过统一工具中心点约定、机器人模型注册和正向运动学计算,将不同机器人平台的本体状态和目标动作,转化为统一 BEV 参考系下的三维末端位姿。通俗来说,它给不同机器人、不同相机、不同动作提供了一把共同的“空间尺子”。

这也是模型能够实现跨机器人泛化的核心关键,解决了硬件异构带来的数据分布偏移问题,大幅降低新设备的微调成本,让一套模型适配多类机器人成为可能。

时序熵减:

抹平操作节奏,规整长序列动作数据

机器人数据的第三重混乱,来自轨迹时间尺度的不一致。不同机器人平台的运动速度不同,不同遥操作员的动作快慢、停顿节奏和操作习惯也不同。即使是同一个任务,也可能生成长度、速度和节奏差异很大的动作轨迹。这些差异并不一定反映任务本质,却会增加模型学习难度。

Dexterity-BEV 针对这一问题引入跨轨迹时序对齐机制。其核心不是抹掉任务本身的动作结构,而是在多数机器人操作近似“准静态”的前提下,对末端执行器速度进行标准化,并重新规整轨迹关键点对应的物理时间。这样,不同机器人、不同操作者、不同数据集中的轨迹,可以在更一致的时间尺度下进入训练。

经过时序对齐后,模型不必过度拟合“某个人操作快还是慢”“某个平台执行速度高还是低”这类偶然差异,而可以更专注于学习任务完成过程中的关键动作顺序、空间关系和操作逻辑

空间、本体和时序三层对齐,共同构成了 Dexterity-BEV 的数据熵减逻辑:保留有价值的差异,消除无意义的差异。

03 .

极致实测性能,全面超越业内基线

目前绝大多数具身研究的实测场景都比较保守,基本围绕常规的抓取、放置等简单短任务展开,依靠固定场景适配就能跑出不错的分数,很难检验模型的真实能力。但Dex-BEV刻意选用了长时序交互、动态扰动、跨设备适配等高难度场景,用更贴近落地实际的复杂任务来客观验证模型性能。

d0739cf6d216221d741e9457879d05be.png

在仿真极限扰动测试中,团队模拟视角偏移、物体变动、位置随机、长时序操作等真实复杂工况。传统2D VLA模型适配性极差,任务成功率直接跌至10%以下,彻底暴露二维表征的天然缺陷。而Dex-BEV在四类扰动任务中分别取得92.8%、89.4%、91.0%、86.2%的成功率,平均成功率达89.9%,抗扰动能力全方位领先主流2D方案。

3ff209b5b7453ac883d9d1e0ad11b45d.png

本研究还依托四类差异化双臂硬件平台,测试布料折叠、礼盒装配、爆米花舀取、书籍交接等易形变、强动态、长时序的高难度实操任务。这类场景是传统模型的短板,极易出现轨迹偏移、操作失效等问题。实测结果显示,Dex-BEV全面优于π₀、X-VLA等顶尖模型,多项任务成功率突破90%,展现出极强的跨硬件适配能力,真正实现一次训练、多机复用。

deeefabae0d157168e9d0f33fd37525f.png

04 .

跨维是在回答一个

很重要且紧急的事情

如今具身智能行业内卷严重,不少团队一味靠加码数据、算力拉高评测成绩,忽视了数据无序、标准缺失的底层痛点,这也是行业难以规模化落地的根本原因。

观察来看,跨维智能没有跟风粗放堆量,而是瞄准行业空白深耕底层数据基建,以此打通零散异构机器人数据复用、规模化迭代的通道,给行业落地提供了一条务实可行的新方向。

跨维智能这次推出Dexterity-BEV并非简单地为行业新增一个模型,核心目标是为物理AI建立一套通用的数据处理基准。依托这套标准,各式机器人数据、人类第一视角数据都能转化为统一3D空间格式,这也是具身基础模型实现Scaling的必要前提。

Dex-BEV对齐规范是跨维智能技术体系中的核心一环,能够显著降低多源数据接入和复用成本。后续跨维还计划推进标准化数据集开源共建,持续为通用机器人的能力迭代夯实高质量底层支撑。

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×