阅读时间大约7分钟（2578字）

2026-07-01 调研完自变量、跨维等6家公司后，发现大家都在摸着石头过河

来源：豆包

具身智能数据仍然处于探索期

作者：Cindy 出品：高工机器人

自具身智能赛道内的玩家们发现，模型进化依赖于数据之后，整个行业就进入了大力采集数据的阶段。

数据工厂快速扩张，据《2026中国人形机器人产业发展蓝皮书》不完全统计，截至2026年3月，中国已建成、在建及规划的人形机器人数据采集/训练中心已超过50家。

数据基础设施公司相继成立，也有越来越多大公司派兵入阵，像智元的觅蜂科技、京东的具身数据中心、百度智能云的具身智能数据超市。

不过，比起这些新出现的数据提供商，高工人形机器人更好奇处于一线的数据需求方的看法。为此，我们走访了星尘智能、数字华夏、跨维智能、自变量、中科慧灵、零次方6家公司进行调研。

而这场巡回调研，我们希望能为读者解答两个问题：数据需求方对于数据的看法，以及他们如何构建数据体系。

没有标准答案

数据金字塔已成为行业对不同类型数据的普遍认知。

底层是互联网数据，量大便宜；中间是仿真合成数据，成本也很低，可实现规模扩展；顶层塔尖是真机数据，质量高。

只是真机数据对机器人的训练效果虽好，但机器人需要的数据规模庞大且采集成本极高，如果完全依赖真机数据，所需要的成本是现在99%的机器人企业无法承受的。

于是，一部分企业开始探索一些更高效的方式，希望能提升真机数据训练模型的效率。

自变量告诉高工人形机器人，无本体数据（如Human-Centric、Ego数据）虽然无法完全替代真机数据的作用，但两者混合能大幅提升训练模型的效率。

具体来说，自变量经过后训练实验发现：10份无本体数据搭配1份真机数据，就能达到同等规模真机数据的训练效果。采集成本较低的无本体数据能提供物理常识与动作规划，真机数据则能补充电机延迟、力矩等机器人本体等细节，将模型训练所需的数据成本降至1/20。

巡回调研·自变量

这一观点并非一家之言。

中科慧灵的数据配比就采用了约70%真实场景操作视频+20%无本体遥操作数据+10%仿真增强数据，互联网数据现在基本弃用。

其中的无本体数据，据其透露，他们将采用Ego-Centric视觉采集方案（参考UMI/AR标记），正在选定最终方案。

零次方也持有相似的观点。他们在预训练阶段，采用开源数据集+少量自采Ego数据+UMI遥操作数据的模式；而在场景精调阶段，则会进入真实场景采集数据，通过远程介入纠正失败案例，形成数据闭环。

这部分企业普遍认为，不管有再多的新技术出现，想要好的落地结果，还是需要真机数据来做后训练。

跨维智能选择的是一条以生成式仿真为核心、多源数据协同的数据工程路线。公司方面表示，在最终所需数据规模尚未收敛的情况下，如果完全依赖真机数据，在成本、效率和落地周期上并不现实。

在数据体系上，跨维智能根据不同训练阶段匹配不同数据来源：在预训练阶段，混合真机遥操、Ego-Centric数据、仿真、网络视频等多源数据；在后训练阶段，优先采用1:1物理还原的仿真环境，降低真机数据依赖。

跨维智能认为，真实数据更适合解决语义泛化问题，仿真数据则更适合解决物理泛化和产品化打磨问题。

除此之外，跨维智能还在推进跨机预训练泛化技术 DexterityBEV。该技术将不同机器人、不同视角、不同传感器和不同动作表征统一到三维物理坐标空间中，来解决不同机器人个体间因构型差异，以及同一机器人因零部件和组装偏差导致的模型成功率下降问题，目前跨机泛化技术已进入产品化阶段。

虽然各持不同意见，但在具身智能发展的早期阶段，每一种技术路线都是一次探索、一种进步。技术的发展，本质上是不断出现新的问题，又不断寻找解决方法。

持续获取数据的能力

如果说数据是具身智能的燃料，那么数据飞轮就决定了具身智能企业能否持续地获得燃料。

在此次调研企业中，几乎所有企业都将数据飞轮视为未来的发展目标。

自变量表示，要参考智能驾驶从规则驱动到数据驱动的转型经验，坚定走数据驱动路线，避免重走传统规控代码难以迭代的老路。

在他们的理念中，模型迭代依赖高质量数据，数据回流又需要模型落地场景支撑，二者需形成正向循环，缺一不可。

中科慧灵也认为即使具身智能一级市场再火热，也是不可持续的，最终还是要比拼场景壁垒和数据积累。而数据×模型×场景的飞轮一旦形成，后来者即使模型能力强也无法跨越数据鸿沟。

据零次方内部验证，随着物体种类增加，相似物品的所需数据量呈边际递减趋势，泛化能力已初步显现。

然而，构建数据飞轮并非易事，因为想要让其转起来首先要采集足够的冷启动数据。而据公开资料显示，截至2026年初，全球高质量真实物理交互数据总量仅约50万小时，可想而知每一家企业的数据存量。

在此背景下，政府作为唯一有能力承担“初始风险”的主体，主动布局数据，并积极牵线各类企业与机器人企业之间的合作，逐步推动数据飞轮。只是政府的帮助是有限的，专属于企业的数据回流体系仍需自己钻研。

在调研过程中，零次方稍稍介绍了他们的数据飞轮规划，他们表示已搭建完整数据回流系统，机器人运行时，模型失败可被自动检测，触发远程介入与数据回收。

他们还考虑了数据的隐私问题，仅抓取结果数据，不涉及敏感信息，以此来促进更多合作。目前数据飞轮已就绪，下半年随产品铺开即可运转。

跨维智能则选择在落地阶段通过“影子模式”端侧采集数据回流，从而持续优化模型。“影子模式”借用于自动驾驶领域，意思是当机器人在现实中运行旧的“安全稳定算法”时，后台同时运行一套处于实验阶段的“新算法”。系统会自动对比新旧算法，如果结果产生差异，这一段数据就会打上标签，自动回传到云端服务器。

他们同时强调，这类真实场景数据更多用于补充 corner case 和持续优化，而不是依赖现场数据把尚未成熟的模型训练到产品级可用状态。

巡回调研·跨维智能

不过，一个更现实的问题是，究竟需要多大规模的数据量才能让具身大脑实现下一阶段的跃迁呢？对于这一问题，大多数企业都没能给一个准确的答案。

行业普遍将百万小时数据量定为采集目标，但也有声音表示，可能需要上千万小时数据，这一数字远小于自动驾驶的数据量级。

UC Berkeley教授Ken Goldberg更是在本届ICRA大会上坦言，“如果按照人类平均阅读速度计算，阅读完今天训练大型语言模型所使用的全部数据，大约需要10万年。而换算到机器人领域，我们目前积累的数据总量，大概只相当于几年的规模。”

这些数字相差巨大，恰恰说明了业内人士对机器人的数据需求边界也没达成统一。

一位数据公司高管曾对高工人形机器人说：“无论最终需要多少数据规模，只要数据对具身的重要性始终不变，那么围绕数据发展就不会错。

同样的道理，尽管企业选择不同的路径，有着不同的目标，只要朝着具身所需要的方向发展，都是有价值的。

结语

走访完6家机器人公司后，一个直观的感受是，除数据的重要性这一大方向保持统一意见以外，其余小方向均处于分化状态。

该采集什么类型的数据？采集到数据之后怎么处理？数据飞轮怎么建立起来？具身智能究竟需要多少规模的数据才能实现跃迁？这些问题仍需前沿企业们探讨。

深圳，只是此次巡回调研的首站，我们将会带着这些问题继续前往北京、华东，与更多的具身智能企业聊一聊。

虽然具身智能数据面临着极大的挑战，但同时也清晰勾勒出了未来的发展难点，或许谁能解决这些痛点，谁就能赢得这次数据竞赛。

具身智能

${{item.author_display_name}}$

右键可直接复制图片

2026-07-01 调研完自变量、跨维等6家公司后，发现大家都在摸着石头过河

纬钛机器人完成新一轮Pre-A轮融资

源策未来完成数亿元种子轮融资

无界动力完成超2亿美元天使轮融资

自变量发布QUANXTA Zero系列无本体数采方案，从具身模型反向定义数采基建

调研完自变量、跨维等6家公司后，发现大家都在摸着石头过河

模型瘦身是什么？万亿参数大模型的“瘦身战”，正在决定具身智能的真正落地

2026-07-01 调研完自变量、跨维等6家公司后，发现大家都在摸着石头过河

{{item.post_title}}

纬钛机器人完成新一轮Pre-A轮融资

源策未来完成数亿元种子轮融资

无界动力完成超2亿美元天使轮融资

自变量发布QUANXTA Zero系列无本体数采方案，从具身模型反向定义数采基建

调研完自变量、跨维等6家公司后，发现大家都在摸着石头过河

模型瘦身是什么？万亿参数大模型的“瘦身战”，正在决定具身智能的真正落地