阅读时间大约6分钟(2154字)
出品:具身智能大讲堂
Human Data 作为具身智能的核心驱动力,当前面临的难题,本质上是物理世界复杂性、人类行为多样性与数据采集、数据处理能力之间的矛盾,体现在以下五个方面:
单一模态数据的精度如何持续突破,进一步提升数据质量;
泛化场景、Corner 场景的成功率如何提升,从而扩大数据的多样性与覆盖范围;
如何实现多模态、多设备数据在时空维度上的精准对齐,构建融合「任务 + 动作」的物理交互数据;
如何持续提升数据处理的带宽与效率,尤其面向长时程、复杂任务,实现数据的scale;
面对全身数据、更多模态的快速发展,在现有模态尚未完全收敛的情况下,如何通过端到端方式快速完成新模态的构建、融合与持续演进。
为此,简智构建了Data Foundation Model(DFM)。
DFM 是一套端到端的多模态数据生成与持续进化系统,位于真实世界数据采集与具身模型训练之间,将Raw Human Data转换为高精度、多模态、时空对齐、可直接用于训练的 Model-Ready Data,并通过 Ground Truth 评测与模型反馈持续优化数据质量,形成面向具身智能的数据飞轮。
与依赖机器人部署的数据闭环不同,DFM 的飞轮以真实人类任务为数据来源,让数据规模随真实世界持续增长,为具身模型提供源源不断的训练燃料。

PART 01
采到数据,不等于拥有训练数据
随着Ego、Fingers 等设备逐步进入家庭、工厂和开放环境,Human Data 的规模持续扩大。采集到的数据越多,上述问题越凸显。
一段视频记录的是画面,一条轨迹记录的是运动,一组触觉信号记录的是接触。这些 Raw Human Data 本质上只是对真实世界的记录,不是模型可以学习的经验。模型真正需要的是高精度、多模态、时空对齐、能够表达任务和交互过程的 Model-Ready Data。
这正是开篇提到的核心挑战,随着具身数据迈向规模化生产,数据越多,转化压力越大。
如果每一个 feature 都用独立模型和独立流程处理,系统会迅速变得低效、割裂且难以扩展。Hand Tracking、6D Pose、Depth、语义标注分别训练、分别维护,不同任务之间大量底层特征无法复用,推理效率低;每新增一个任务,都要重新准备数据、训练模型、冷启动和调优,开发效率极低。
DFM 正是为解决这一问题而设计。

它不是针对某一项任务构建的模型,而是一个支持多任务协同学习的端到端数据基础模型,在统一框架下理解来自不同设备、不同模态的人类行为数据,并构建统一的数据表示。DFM 的核心能力包括:
统一感知基座
共享统一的感知底座,同时支持多视角感知、Hand Tracking、6D Pose、Depth、任务语义理解等多类任务,实现底层能力共享,降低系统复杂度。
多源混合训练
支持 Ego Video、Ego + Finger、Ego + Dex、Ego + Suit,以及视觉、触觉、语言、声音等异构数据联合训练,提高跨模态表征能力和泛化能力。
时空多视角融合
融合多相机、多视角及时序信息,通过几何约束恢复连续三维交互过程,在遮挡、快速运动等复杂场景下保持稳定感知能力。
模块化能力扩展
新的采集设备、新的数据模态和新的输出任务都可以快速接入,在复用已有能力的同时保证输出精度,避免重复开发。
数据驱动持续进化
持续引入新的真实世界数据、任务和弱势场景,通过联合训练不断提升整体能力,形成持续演进的数据飞轮。因此,DFM 不只是数据处理工具,更是一套覆盖数据接入、模态理解、任务输出、质量评测、弱势场景挖掘和持续迭代的数据基础设施。我们更愿意把它称为世界经验编译器(World Experience Compiler),它承担整个数据链路中最关键的一步——把真实世界的人类行为,稳定、高效地编译成具身模型能够学习的世界经验。
PART 02
DFM:从 Raw Data 到 Model-Ready Data

图:6D Pose<1cm
DFM 由输入、理解和输出三个层次组成:
输入端,DFM 接入 Ego Video、Ego + Finger、Ego + Dex、Ego + Suit,以及触觉、声音、语言等多模态信号。这些数据虽然来源不同,但共同描述着人类如何与物理世界交互。
中间层,DFM 通过多视角感知、多模态理解、空间重建、几何推理、多任务联合学习及时序融合,将原始信号转化为统一的结构化表示,同时理解空间、动作和任务语义。

图:Hand Tracking<1cm
输出端,DFM 生成具身模型真正需要的训练数据,包括 Hand Tracking、6D Pose、Depth、Task、Sub-task、CoT 语义标注、触觉对齐等多模态监督信号,为模型训练提供统一的数据基础。
PART 03
DFM 的五大核心优势
1、高精度,提升数据质量
具身模型训练最怕的不是数据少,而是监督信号不准确。DFM 在统一框架下输出高精度数据,目前,Hand Tracking 精度已达到 <1 cm(点击阅读详情);6D Pose 精度同样突破 1 cm(点击阅读详情),从源头提升训练数据质量。
2、多模态,规模化生产
DFM 在统一框架下完成视觉、动作、触觉、语言等多模态数据处理,让不同任务共享底层表示。Raw Data 到 Model-Ready Data 的转换仅需 1 分钟,整体数据生产效率提升 3.2 倍,真正实现规模化多模态数据生产。
3、持续发现Corner Case,补齐能力边界
模型真正需要的数据,往往来自真实世界长尾场景,而不是标准样例。DFM 结合 Ground Truth 评测持续发现模型能力边界,并反向指导下一轮数据补采,让数据生产从"按需求采集"升级为"主动发现能力缺口"。
4、前置质量验证,降低训练成本
传统数据质量往往需要等模型训练完成甚至真机部署后才能验证,代价高、周期长。DFM 将 Ground Truth 前置到数据生成阶段,数据质量不必等到真机部署后才能验证,在进入训练前完成筛选和优化,大幅降低训练和部署成本。
5、数据飞轮驱动,能力持续进化
传统数据飞轮依赖机器人部署,DFM 则以真实世界人类任务为起点:
原始人类数据 → DFM → 真值评测→ 模型能力提升→ 弱势场景挖掘 → 原始数据再采集 → 模型能力再提升。
这个飞轮让数据生产不再只是“多采一点”,而是采得更准、产得更好、验证得更早、迭代得更快。数据规模不再受机器人部署数量限制,而是随真实人类任务持续增长,让模型能力不断演进。
PART 04
让世界经验持续转化为模型能力
DFM 的目标不是生产更多数据,而是持续提升模型能够学习到的世界经验,进而转化为模型能力。
它不仅输出高精度、多模态训练数据,还持续发现数据缺口、优化数据策略、推动模型迭代,使数据供应从"交付数据"升级为"提供数据解决方案"。这为具身模型的 zero-shot 泛化提供了重要的数据基础。
互联网时代,数据让 AI 学会理解数字世界;Physical AI 时代,Human Data 将让机器人学会理解真实世界。
DFM 所做的,不只是处理数据,而是持续把真实世界编译成模型可以学习的世界经验。
