阅读时间大约6分钟（2154字）

2026-06-18 为什么Human Data需要Data Foundation Model？

来源：豆包

出品：具身智能大讲堂HumanData作为具身智能的核心驱动力，当前面临的难题，本质上是物理世界复杂性、人类行为多样性与数据采集、数据处理能力之间的矛盾，体现在...

出品：具身智能大讲堂

Human Data 作为具身智能的核心驱动力，当前面临的难题，本质上是物理世界复杂性、人类行为多样性与数据采集、数据处理能力之间的矛盾，体现在以下五个方面：

单一模态数据的精度如何持续突破，进一步提升数据质量；

泛化场景、Corner 场景的成功率如何提升，从而扩大数据的多样性与覆盖范围；

如何实现多模态、多设备数据在时空维度上的精准对齐，构建融合「任务 + 动作」的物理交互数据；

如何持续提升数据处理的带宽与效率，尤其面向长时程、复杂任务，实现数据的scale；

面对全身数据、更多模态的快速发展，在现有模态尚未完全收敛的情况下，如何通过端到端方式快速完成新模态的构建、融合与持续演进。

为此，简智构建了Data Foundation Model（DFM）。

DFM 是一套端到端的多模态数据生成与持续进化系统，位于真实世界数据采集与具身模型训练之间，将Raw Human Data转换为高精度、多模态、时空对齐、可直接用于训练的 Model-Ready Data，并通过 Ground Truth 评测与模型反馈持续优化数据质量，形成面向具身智能的数据飞轮。

与依赖机器人部署的数据闭环不同，DFM 的飞轮以真实人类任务为数据来源，让数据规模随真实世界持续增长，为具身模型提供源源不断的训练燃料。

PART 01

采到数据，不等于拥有训练数据

随着Ego、Fingers 等设备逐步进入家庭、工厂和开放环境，Human Data 的规模持续扩大。采集到的数据越多，上述问题越凸显。

一段视频记录的是画面，一条轨迹记录的是运动，一组触觉信号记录的是接触。这些 Raw Human Data 本质上只是对真实世界的记录，不是模型可以学习的经验。模型真正需要的是高精度、多模态、时空对齐、能够表达任务和交互过程的 Model-Ready Data。

这正是开篇提到的核心挑战，随着具身数据迈向规模化生产，数据越多，转化压力越大。

如果每一个 feature 都用独立模型和独立流程处理，系统会迅速变得低效、割裂且难以扩展。Hand Tracking、6D Pose、Depth、语义标注分别训练、分别维护，不同任务之间大量底层特征无法复用，推理效率低；每新增一个任务，都要重新准备数据、训练模型、冷启动和调优，开发效率极低。

DFM 正是为解决这一问题而设计。

它不是针对某一项任务构建的模型，而是一个支持多任务协同学习的端到端数据基础模型，在统一框架下理解来自不同设备、不同模态的人类行为数据，并构建统一的数据表示。DFM 的核心能力包括：

统一感知基座

共享统一的感知底座，同时支持多视角感知、Hand Tracking、6D Pose、Depth、任务语义理解等多类任务，实现底层能力共享，降低系统复杂度。

多源混合训练

支持 Ego Video、Ego + Finger、Ego + Dex、Ego + Suit，以及视觉、触觉、语言、声音等异构数据联合训练，提高跨模态表征能力和泛化能力。

时空多视角融合

融合多相机、多视角及时序信息，通过几何约束恢复连续三维交互过程，在遮挡、快速运动等复杂场景下保持稳定感知能力。

模块化能力扩展

新的采集设备、新的数据模态和新的输出任务都可以快速接入，在复用已有能力的同时保证输出精度，避免重复开发。

数据驱动持续进化

持续引入新的真实世界数据、任务和弱势场景，通过联合训练不断提升整体能力，形成持续演进的数据飞轮。因此，DFM 不只是数据处理工具，更是一套覆盖数据接入、模态理解、任务输出、质量评测、弱势场景挖掘和持续迭代的数据基础设施。我们更愿意把它称为世界经验编译器（World Experience Compiler），它承担整个数据链路中最关键的一步——把真实世界的人类行为，稳定、高效地编译成具身模型能够学习的世界经验。

PART 02

DFM：从 Raw Data 到 Model-Ready Data

图：6D Pose＜1cm

DFM 由输入、理解和输出三个层次组成：

输入端，DFM 接入 Ego Video、Ego + Finger、Ego + Dex、Ego + Suit，以及触觉、声音、语言等多模态信号。这些数据虽然来源不同，但共同描述着人类如何与物理世界交互。

中间层，DFM 通过多视角感知、多模态理解、空间重建、几何推理、多任务联合学习及时序融合，将原始信号转化为统一的结构化表示，同时理解空间、动作和任务语义。

图：Hand Tracking＜1cm

输出端，DFM 生成具身模型真正需要的训练数据，包括 Hand Tracking、6D Pose、Depth、Task、Sub-task、CoT 语义标注、触觉对齐等多模态监督信号，为模型训练提供统一的数据基础。

PART 03

DFM 的五大核心优势

1、高精度，提升数据质量
具身模型训练最怕的不是数据少，而是监督信号不准确。DFM 在统一框架下输出高精度数据，目前，Hand Tracking 精度已达到 <1 cm（点击阅读详情）；6D Pose 精度同样突破 1 cm（点击阅读详情），从源头提升训练数据质量。

2、多模态，规模化生产
DFM 在统一框架下完成视觉、动作、触觉、语言等多模态数据处理，让不同任务共享底层表示。Raw Data 到 Model-Ready Data 的转换仅需 1 分钟，整体数据生产效率提升 3.2 倍，真正实现规模化多模态数据生产。

3、持续发现Corner Case，补齐能力边界
模型真正需要的数据，往往来自真实世界长尾场景，而不是标准样例。DFM 结合 Ground Truth 评测持续发现模型能力边界，并反向指导下一轮数据补采，让数据生产从"按需求采集"升级为"主动发现能力缺口"。

4、前置质量验证，降低训练成本
传统数据质量往往需要等模型训练完成甚至真机部署后才能验证，代价高、周期长。DFM 将 Ground Truth 前置到数据生成阶段，数据质量不必等到真机部署后才能验证，在进入训练前完成筛选和优化，大幅降低训练和部署成本。

5、数据飞轮驱动，能力持续进化

传统数据飞轮依赖机器人部署，DFM 则以真实世界人类任务为起点：

原始人类数据 → DFM → 真值评测→ 模型能力提升→ 弱势场景挖掘 → 原始数据再采集 → 模型能力再提升。

这个飞轮让数据生产不再只是“多采一点”，而是采得更准、产得更好、验证得更早、迭代得更快。数据规模不再受机器人部署数量限制，而是随真实人类任务持续增长，让模型能力不断演进。

PART 04

让世界经验持续转化为模型能力

DFM 的目标不是生产更多数据，而是持续提升模型能够学习到的世界经验，进而转化为模型能力。

它不仅输出高精度、多模态训练数据，还持续发现数据缺口、优化数据策略、推动模型迭代，使数据供应从"交付数据"升级为"提供数据解决方案"。这为具身模型的 zero-shot 泛化提供了重要的数据基础。

互联网时代，数据让 AI 学会理解数字世界；Physical AI 时代，Human Data 将让机器人学会理解真实世界。

DFM 所做的，不只是处理数据，而是持续把真实世界编译成模型可以学习的世界经验。

${{item.author_display_name}}$

右键可直接复制图片

2026-06-18 为什么Human Data需要Data Foundation Model？

中科原动力完成B2轮数亿元融资

昆腾动力完成超亿元种子轮融资

宇树科技首次公开发行股票并在科创板上市

技术向内藏，温度向外露：我们到底需要什么样的机器人？

昆腾动力完成超亿元种子轮融资

前7个月，灵巧手融资额暴涨150倍

2026-06-18 为什么Human Data需要Data Foundation Model？

{{item.post_title}}

中科原动力完成B2轮数亿元融资

昆腾动力完成超亿元种子轮融资

宇树科技首次公开发行股票并在科创板上市

技术向内藏，温度向外露：我们到底需要什么样的机器人？

昆腾动力完成超亿元种子轮融资

前7个月，灵巧手融资额暴涨150倍