调研完自变量、跨维等6家公司后,发现大家都在摸着石头过河
统计 阅读时间大约7分钟(2578字)

2026-07-01 调研完自变量、跨维等6家公司后,发现大家都在摸着石头过河

来源:豆包
具身智能数据仍然处于探索期

作者:Cindy     出品:高工机器人

自具身智能赛道内的玩家们发现,模型进化依赖于数据之后,整个行业就进入了大力采集数据的阶段。

数据工厂快速扩张,据《2026中国人形机器人产业发展蓝皮书》不完全统计,截至2026年3月,中国已建成、在建及规划的人形机器人数据采集/训练中心已超过50家。

数据基础设施公司相继成立,也有越来越多大公司派兵入阵,像智元的觅蜂科技、京东的具身数据中心、百度智能云的具身智能数据超市。

不过,比起这些新出现的数据提供商,高工人形机器人更好奇处于一线的数据需求方的看法。为此,我们走访了星尘智能、数字华夏、跨维智能、自变量、中科慧灵、零次方6家公司进行调研。

而这场巡回调研,我们希望能为读者解答两个问题:数据需求方对于数据的看法,以及他们如何构建数据体系。

没有标准答案

数据金字塔已成为行业对不同类型数据的普遍认知。

底层是互联网数据,量大便宜;中间是仿真合成数据,成本也很低,可实现规模扩展;顶层塔尖是真机数据,质量高。

只是真机数据对机器人的训练效果虽好,但机器人需要的数据规模庞大且采集成本极高,如果完全依赖真机数据,所需要的成本是现在99%的机器人企业无法承受的。

于是,一部分企业开始探索一些更高效的方式,希望能提升真机数据训练模型的效率。

自变量告诉高工人形机器人,无本体数据(如Human-Centric、Ego数据)虽然无法完全替代真机数据的作用,但两者混合能大幅提升训练模型的效率。

具体来说,自变量经过后训练实验发现:10份无本体数据搭配1份真机数据,就能达到同等规模真机数据的训练效果。采集成本较低的无本体数据能提供物理常识与动作规划,真机数据则能补充电机延迟、力矩等机器人本体等细节,将模型训练所需的数据成本降至1/20。

3c820ae99f19cf379fd1f2362bc02506.png

巡回调研·自变量

这一观点并非一家之言。

中科慧灵的数据配比就采用了约70%真实场景操作视频+20%无本体遥操作数据+10%仿真增强数据,互联网数据现在基本弃用。

其中的无本体数据,据其透露,他们将采用Ego-Centric视觉采集方案(参考UMI/AR标记),正在选定最终方案。

零次方也持有相似的观点。他们在预训练阶段,采用开源数据集+少量自采Ego数据+UMI遥操作数据的模式;而在场景精调阶段,则会进入真实场景采集数据,通过远程介入纠正失败案例,形成数据闭环。

这部分企业普遍认为,不管有再多的新技术出现,想要好的落地结果,还是需要真机数据来做后训练。

跨维智能选择的是一条以生成式仿真为核心、多源数据协同的数据工程路线。公司方面表示,在最终所需数据规模尚未收敛的情况下,如果完全依赖真机数据,在成本、效率和落地周期上并不现实。

在数据体系上,跨维智能根据不同训练阶段匹配不同数据来源:在预训练阶段,混合真机遥操、Ego-Centric数据、仿真、网络视频等多源数据;在后训练阶段,优先采用1:1物理还原的仿真环境,降低真机数据依赖。

跨维智能认为,真实数据更适合解决语义泛化问题,仿真数据则更适合解决物理泛化和产品化打磨问题。

除此之外,跨维智能还在推进跨机预训练泛化技术 DexterityBEV。该技术将不同机器人、不同视角、不同传感器和不同动作表征统一到三维物理坐标空间中,来解决不同机器人个体间因构型差异,以及同一机器人因零部件和组装偏差导致的模型成功率下降问题,目前跨机泛化技术已进入产品化阶段。

虽然各持不同意见,但在具身智能发展的早期阶段,每一种技术路线都是一次探索、一种进步。技术的发展,本质上是不断出现新的问题,又不断寻找解决方法。

持续获取数据的能力

如果说数据是具身智能的燃料,那么数据飞轮就决定了具身智能企业能否持续地获得燃料。

在此次调研企业中,几乎所有企业都将数据飞轮视为未来的发展目标。

自变量表示,要参考智能驾驶从规则驱动到数据驱动的转型经验,坚定走数据驱动路线,避免重走传统规控代码难以迭代的老路。

在他们的理念中,模型迭代依赖高质量数据,数据回流又需要模型落地场景支撑,二者需形成正向循环,缺一不可。

中科慧灵也认为即使具身智能一级市场再火热,也是不可持续的,最终还是要比拼场景壁垒和数据积累。而数据×模型×场景的飞轮一旦形成,后来者即使模型能力强也无法跨越数据鸿沟。

据零次方内部验证,随着物体种类增加,相似物品的所需数据量呈边际递减趋势,泛化能力已初步显现。

然而,构建数据飞轮并非易事,因为想要让其转起来首先要采集足够的冷启动数据。而据公开资料显示,截至2026年初,全球高质量真实物理交互数据总量仅约50万小时,可想而知每一家企业的数据存量。

在此背景下,政府作为唯一有能力承担“初始风险”的主体,主动布局数据,并积极牵线各类企业与机器人企业之间的合作,逐步推动数据飞轮。只是政府的帮助是有限的,专属于企业的数据回流体系仍需自己钻研。

在调研过程中,零次方稍稍介绍了他们的数据飞轮规划,他们表示已搭建完整数据回流系统,机器人运行时,模型失败可被自动检测,触发远程介入与数据回收。

他们还考虑了数据的隐私问题,仅抓取结果数据,不涉及敏感信息,以此来促进更多合作。目前数据飞轮已就绪,下半年随产品铺开即可运转。

跨维智能则选择在落地阶段通过“影子模式”端侧采集数据回流,从而持续优化模型。“影子模式”借用于自动驾驶领域,意思是当机器人在现实中运行旧的“安全稳定算法”时,后台同时运行一套处于实验阶段的“新算法”。系统会自动对比新旧算法,如果结果产生差异,这一段数据就会打上标签,自动回传到云端服务器。

他们同时强调,这类真实场景数据更多用于补充 corner case 和持续优化,而不是依赖现场数据把尚未成熟的模型训练到产品级可用状态。

806b8990d0c543ce088a7a80152f27ce.png

巡回调研·跨维智能

不过,一个更现实的问题是,究竟需要多大规模的数据量才能让具身大脑实现下一阶段的跃迁呢?对于这一问题,大多数企业都没能给一个准确的答案。

行业普遍将百万小时数据量定为采集目标,但也有声音表示,可能需要上千万小时数据,这一数字远小于自动驾驶的数据量级。

UC Berkeley教授Ken Goldberg更是在本届ICRA大会上坦言,“如果按照人类平均阅读速度计算,阅读完今天训练大型语言模型所使用的全部数据,大约需要10万年。而换算到机器人领域,我们目前积累的数据总量,大概只相当于几年的规模。”

这些数字相差巨大,恰恰说明了业内人士对机器人的数据需求边界也没达成统一。

一位数据公司高管曾对高工人形机器人说:“无论最终需要多少数据规模,只要数据对具身的重要性始终不变,那么围绕数据发展就不会错。

同样的道理,尽管企业选择不同的路径,有着不同的目标,只要朝着具身所需要的方向发展,都是有价值的。

结语

走访完6家机器人公司后,一个直观的感受是,除数据的重要性这一大方向保持统一意见以外,其余小方向均处于分化状态。

该采集什么类型的数据?采集到数据之后怎么处理?数据飞轮怎么建立起来?具身智能究竟需要多少规模的数据才能实现跃迁?这些问题仍需前沿企业们探讨。

深圳,只是此次巡回调研的首站,我们将会带着这些问题继续前往北京、华东,与更多的具身智能企业聊一聊。

虽然具身智能数据面临着极大的挑战,但同时也清晰勾勒出了未来的发展难点,或许谁能解决这些痛点,谁就能赢得这次数据竞赛。

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×