阅读时间大约7分钟(2578字)
作者:Cindy 出品:高工机器人
自具身智能赛道内的玩家们发现,模型进化依赖于数据之后,整个行业就进入了大力采集数据的阶段。
数据工厂快速扩张,据《2026中国人形机器人产业发展蓝皮书》不完全统计,截至2026年3月,中国已建成、在建及规划的人形机器人数据采集/训练中心已超过50家。
数据基础设施公司相继成立,也有越来越多大公司派兵入阵,像智元的觅蜂科技、京东的具身数据中心、百度智能云的具身智能数据超市。
不过,比起这些新出现的数据提供商,高工人形机器人更好奇处于一线的数据需求方的看法。为此,我们走访了星尘智能、数字华夏、跨维智能、自变量、中科慧灵、零次方6家公司进行调研。
而这场巡回调研,我们希望能为读者解答两个问题:数据需求方对于数据的看法,以及他们如何构建数据体系。
没有标准答案
数据金字塔已成为行业对不同类型数据的普遍认知。
底层是互联网数据,量大便宜;中间是仿真合成数据,成本也很低,可实现规模扩展;顶层塔尖是真机数据,质量高。
只是真机数据对机器人的训练效果虽好,但机器人需要的数据规模庞大且采集成本极高,如果完全依赖真机数据,所需要的成本是现在99%的机器人企业无法承受的。
于是,一部分企业开始探索一些更高效的方式,希望能提升真机数据训练模型的效率。
自变量告诉高工人形机器人,无本体数据(如Human-Centric、Ego数据)虽然无法完全替代真机数据的作用,但两者混合能大幅提升训练模型的效率。
具体来说,自变量经过后训练实验发现:10份无本体数据搭配1份真机数据,就能达到同等规模真机数据的训练效果。采集成本较低的无本体数据能提供物理常识与动作规划,真机数据则能补充电机延迟、力矩等机器人本体等细节,将模型训练所需的数据成本降至1/20。

巡回调研·自变量
这一观点并非一家之言。
中科慧灵的数据配比就采用了约70%真实场景操作视频+20%无本体遥操作数据+10%仿真增强数据,互联网数据现在基本弃用。
其中的无本体数据,据其透露,他们将采用Ego-Centric视觉采集方案(参考UMI/AR标记),正在选定最终方案。
零次方也持有相似的观点。他们在预训练阶段,采用开源数据集+少量自采Ego数据+UMI遥操作数据的模式;而在场景精调阶段,则会进入真实场景采集数据,通过远程介入纠正失败案例,形成数据闭环。
这部分企业普遍认为,不管有再多的新技术出现,想要好的落地结果,还是需要真机数据来做后训练。
跨维智能选择的是一条以生成式仿真为核心、多源数据协同的数据工程路线。公司方面表示,在最终所需数据规模尚未收敛的情况下,如果完全依赖真机数据,在成本、效率和落地周期上并不现实。
在数据体系上,跨维智能根据不同训练阶段匹配不同数据来源:在预训练阶段,混合真机遥操、Ego-Centric数据、仿真、网络视频等多源数据;在后训练阶段,优先采用1:1物理还原的仿真环境,降低真机数据依赖。
跨维智能认为,真实数据更适合解决语义泛化问题,仿真数据则更适合解决物理泛化和产品化打磨问题。
除此之外,跨维智能还在推进跨机预训练泛化技术 DexterityBEV。该技术将不同机器人、不同视角、不同传感器和不同动作表征统一到三维物理坐标空间中,来解决不同机器人个体间因构型差异,以及同一机器人因零部件和组装偏差导致的模型成功率下降问题,目前跨机泛化技术已进入产品化阶段。
虽然各持不同意见,但在具身智能发展的早期阶段,每一种技术路线都是一次探索、一种进步。技术的发展,本质上是不断出现新的问题,又不断寻找解决方法。
持续获取数据的能力
如果说数据是具身智能的燃料,那么数据飞轮就决定了具身智能企业能否持续地获得燃料。
在此次调研企业中,几乎所有企业都将数据飞轮视为未来的发展目标。
自变量表示,要参考智能驾驶从规则驱动到数据驱动的转型经验,坚定走数据驱动路线,避免重走传统规控代码难以迭代的老路。
在他们的理念中,模型迭代依赖高质量数据,数据回流又需要模型落地场景支撑,二者需形成正向循环,缺一不可。
中科慧灵也认为即使具身智能一级市场再火热,也是不可持续的,最终还是要比拼场景壁垒和数据积累。而数据×模型×场景的飞轮一旦形成,后来者即使模型能力强也无法跨越数据鸿沟。
据零次方内部验证,随着物体种类增加,相似物品的所需数据量呈边际递减趋势,泛化能力已初步显现。
然而,构建数据飞轮并非易事,因为想要让其转起来首先要采集足够的冷启动数据。而据公开资料显示,截至2026年初,全球高质量真实物理交互数据总量仅约50万小时,可想而知每一家企业的数据存量。
在此背景下,政府作为唯一有能力承担“初始风险”的主体,主动布局数据,并积极牵线各类企业与机器人企业之间的合作,逐步推动数据飞轮。只是政府的帮助是有限的,专属于企业的数据回流体系仍需自己钻研。
在调研过程中,零次方稍稍介绍了他们的数据飞轮规划,他们表示已搭建完整数据回流系统,机器人运行时,模型失败可被自动检测,触发远程介入与数据回收。
他们还考虑了数据的隐私问题,仅抓取结果数据,不涉及敏感信息,以此来促进更多合作。目前数据飞轮已就绪,下半年随产品铺开即可运转。
跨维智能则选择在落地阶段通过“影子模式”端侧采集数据回流,从而持续优化模型。“影子模式”借用于自动驾驶领域,意思是当机器人在现实中运行旧的“安全稳定算法”时,后台同时运行一套处于实验阶段的“新算法”。系统会自动对比新旧算法,如果结果产生差异,这一段数据就会打上标签,自动回传到云端服务器。
他们同时强调,这类真实场景数据更多用于补充 corner case 和持续优化,而不是依赖现场数据把尚未成熟的模型训练到产品级可用状态。

巡回调研·跨维智能
不过,一个更现实的问题是,究竟需要多大规模的数据量才能让具身大脑实现下一阶段的跃迁呢?对于这一问题,大多数企业都没能给一个准确的答案。
行业普遍将百万小时数据量定为采集目标,但也有声音表示,可能需要上千万小时数据,这一数字远小于自动驾驶的数据量级。
UC Berkeley教授Ken Goldberg更是在本届ICRA大会上坦言,“如果按照人类平均阅读速度计算,阅读完今天训练大型语言模型所使用的全部数据,大约需要10万年。而换算到机器人领域,我们目前积累的数据总量,大概只相当于几年的规模。”
这些数字相差巨大,恰恰说明了业内人士对机器人的数据需求边界也没达成统一。
一位数据公司高管曾对高工人形机器人说:“无论最终需要多少数据规模,只要数据对具身的重要性始终不变,那么围绕数据发展就不会错。
同样的道理,尽管企业选择不同的路径,有着不同的目标,只要朝着具身所需要的方向发展,都是有价值的。
结语
走访完6家机器人公司后,一个直观的感受是,除数据的重要性这一大方向保持统一意见以外,其余小方向均处于分化状态。
该采集什么类型的数据?采集到数据之后怎么处理?数据飞轮怎么建立起来?具身智能究竟需要多少规模的数据才能实现跃迁?这些问题仍需前沿企业们探讨。
深圳,只是此次巡回调研的首站,我们将会带着这些问题继续前往北京、华东,与更多的具身智能企业聊一聊。
虽然具身智能数据面临着极大的挑战,但同时也清晰勾勒出了未来的发展难点,或许谁能解决这些痛点,谁就能赢得这次数据竞赛。
