人形机器人的“学前教育”,一堆人抢着做
统计 阅读时间大约9分钟(3449字)

2025-11-28 人形机器人的“学前教育”,一堆人抢着做

来源:智元机器人
数据采集和训练到底是不是一桩好生意,还不好说。

作者:Ivy   出品:高工人形机器人

11月21日,“人形机器人第一股”优必选中标广西防城港市人形机器人数据采集与测试中心和人工智能科创教育示范项目,中标金额2.64亿元。

此外,优必选近期在广西和四川两地接连斩获数据采集中心项目。

继10月19日以1.26亿元中标“广西具身智能数据采集及测试中心设备采购及安装”项目后,11月4日,公司又以1.59亿元中标“自贡数投人形机器人数据采集中心项目设备采购”。

接连中标的这三起项目,不断刷新人形机器人行业的订单纪录。

这些数据采集与测试中心正成为产品批量应用的“前哨”,而它们所产生的海量数据,将为人形机器人的智能化和泛化能力提供核心“燃料”。

此举背后,是一个更清晰的趋势:具身智能数据作为未来产业的关键赛点,正吸引越来越多的城市将其视为必须抢占的战略资源。

58f6656ecc345d18d180234f697ab6c5.jpg

据高工人形机器人不完全统计,国内共有9家数据采集和训练中心已投入使用,其中包括智元数据集采厂、异构人形机器人训练场、北京首个人形机器人数据训练中心、具身智能超级数据工厂、长三角一体化示范区智能机器人训练中心、物流场景人形机器人训练与数据采集工厂、乐聚人形机器人数据训练中心二期、嘉兴市具身智能数据采集训练中心、无锡市具身智能机器人工业数据采集与实训中心。

除优必选中标的上述三个项目外,正在建设中的数据采集中心还包括北京人形机器人创新中心打造的具身智能数据训练基地,以及深圳玉树具身机器人智创中心等。

9家数据采集和训练中心速览

智元数据集采厂

2024年9月,位于上海浦东的智元数据集采厂正式启用,作为全国首个“人形机器人训练场”启用,其总面积达3000多平方米,一百多台人形机器人日日夜夜地接受超高强度的集训。

智元数据集采厂

据了解,智元数据采集工厂投放了近百台机器人,日均采集3-5w条数据。其中搭建出家居、餐厅、工业、商超、办公五大类场景,包含超过两百个细分场景的任务。

异构人形机器人训练场

2025年1月21日,在国家地方共建人形机器人创新中心,全国首个异构人形机器人训练场正式启用。

异构人形机器人训练场

资料显示,该训练场面积超5000平米,首期部署超100台异构人形机器人,单台机器人每日可采集有效轨迹数据超过500条。

在上下两层的空间中,分设了“特殊作业操作-焊接”“技能泛化验证-YZ装配工站”“高精度双手协同装配加工-3C制造”“高精度双手协同装配加工-汽车检测”等十多个场景,方便人形机器人学习3C制造、家政服务、汽车检测等不同工种。

北京首个人形机器人数据训练中心

今年3月下旬,北京市首个人形机器人数据训练中心落地石景山首钢园金安科幻广场区域,由石景山提供场地、资金、应用场景支持,睿擎(北京)机器人有限公司提供设备、人力、运营团队。

北京首个人形机器人数据训练中心

资料显示,训练场占地3000平方米,项目部署108台具身双臂升降、轮式人形机器人、单臂无人机、单臂四足仿生机器人,每个机器人平均每天会采集大概100条数据。

该训练场集合了如睿尔曼、元客视界、艾欧智能、傲意科技,知行机器人、强脑科技等具身智能产业链上下游等十余家企业先进技术与产品,并设置了家庭康养、特种作业、新零售、汽车装配、新餐饮、3C电子工厂等十大实景场景。

具身智能超级数据工厂(Super EID Factory)

6月23日,帕西尼建立的具身智能超级数据工厂正式启用,工厂占地近12000平方米。

具身智能超级数据工厂

其内部构建了“15+N”个全场景矩阵,覆盖汽车制造、3C装配、家庭、办公、餐饮等千种任务场景,部署有150个标准化采集单元,全部配备帕西尼自研的高精度数据采集设备。

帕西尼感知科技创始人兼CEO许晋诚介绍,目前帕西尼天津数据工厂每天最多可采集55万条数据,预计工厂每年可生产高质量数据2亿条。

长三角一体化示范区智能机器人训练中心

6月24日,长三角一体化示范区智能机器人训练中心启动仪式在吴江举行,由吴江区大数据有限公司、苏州湾集团和乐聚机器人联合运营。

长三角一体化示范区智能机器人训练中心

该训练中心占地面积约1500平方米,配备了30个数据采集工位,涵盖智能制造、商业服务、特种应用三大类8个场景,年产数据可超200万条。

物流场景人形机器人训练与数据采集工厂

2025年7月,德马物流联合智元机器人在嘉定正式投产全球首家具身智能人形机器人训练与数据采集工厂,几十台人形机器人在真实作业线上模拟搬运、拆箱、分拣等流程,采集视觉、力觉、触觉、运动轨迹等多维度数据,填补柔性泛场景作业数据的全球空白。

物流场景人形机器人训练与数据采集工厂

据智元透露,目前精灵G1主要从事分拣供包工序,未来有望延伸至装卸、搬运、复核等更多工序。

乐聚人形机器人数据训练中心二期

今年9月初,乐聚人形机器人数据训练中心二期在银保园正式建成投用,由北京石景山产业发展有限公司、北京石景山银行保险产业园与乐聚机器人联合运营。

乐聚人形机器人数据训练中心二期

其占地面积上万平方米,年产数据量超600万条,预计数据产能达5000小时/月。

在场景方面,其1:1还原了工业智造、智慧家庭、康养服务和5G融合四大类共16个细分场景。

嘉兴市具身智能数据采集训练中心

10月30日,嘉兴市具身智能数据采集训练中心在南湖区人工智能创新发展大会上正式揭牌,是行业内首个基于柔性电子技术的多模态感知与具身智能数据采集训练平台,该中心由柔电院牵头建设,联合具身智能领域多家科研机构与头部企业共同打造。

嘉兴市具身智能数据采集训练中心

在训练场景与任务设计方面,该中心构建了“1+4+N”人形机器人训练场景体系。

其中,“1”指一个以桌面级原子任务及长时序任务数据采集为目标的通用训练场地;“4”指四个与企业合作,覆盖工业、农业、商超、康养四大领域,;“N”则代表根据真实落地需求设计建立的多个(触觉)数据采集训练动作集。

无锡市具身智能机器人工业数据采集与实训中心

10月31日,无锡市具身智能机器人工业数据采集与实训中心在无锡惠山高新区正式启用,由惠山区企业天奇股份建设运营,采训中心的空间面积近7000平方米。

无锡市具身智能机器人工业数据采集与实训中心

在场景方面,该采训中心围绕七大重点实训场景+机器人调试组装展开,包括新能源锂电、半导体/高端制造、物流搬运、汽车整车、家庭康养/商用零售、交通巡检、机器人多模态通用技能等场景的数据采集和技能实训工作。

业内对数据需求的不同想法

不仅国内建有多处数据采集与训练中心,最被熟知的特斯拉同样设有一个“秘密实验室”,致力于收集人类活动的庞大数据,用以训练其机器人。

据悉,特斯拉数据数采团队曾拥有超过100名员工,他们的工作内容包括:在8小时的轮班中,重复数百次包括奔跑、蹲下、舞蹈、拿杯子、擦桌子、拉窗帘等动作,并需要制作至少4个小时的可用视频。

无论这些数据看起来多么冗余,其背后都是特斯拉寄希望于这一举措,能够效仿人工智能行业昔日的突破,在海量训练数据上成功训练出具身大模型。

诚然,具身智能行业对海量真实世界数据的需求已是共识,这也直接催生了众多数据采集中心。

然而,行业并非只能被动等待数据投喂。在最终数据需求量尚不明确的背景下,人形机器人对“数据无穷尽”的依赖,引发了业内的质疑和反思。

前有头部企业表示对数据采集市场持谨慎态度,认为其商业闭环不清晰,数据可能从“资产”变成“负债”。

后有浙江人形机器人创新中心首席科学家熊蓉公开表示,“在算法层面,目前的主流思路依然延续大模型的技术路径,侧重于建立数据间的关联。然而,对于具身智能这一特定领域,这是否是唯一或最有效的方向,仍需深入审视。”

而在11月10日,李飞飞发表长文《从文字到世界:空间智能是AI的下一个前沿》介绍“世界模型”(LWMs),则是为仿真数据提供了发展的可能性,为人形机器人缺乏多样化形态的训练数据提新的解决思路。

李飞飞提出,机器人的学习进步取决于可扩展的训练数据方案。要让机器人具备理解、推理、规划与交互的能力,它们需要覆盖极为庞大的状态空间。

在机器人的训练数据极为匮乏的背景下,世界模型将发挥决定性作用。

随着其感知精度与计算效率的提高,世界模型生成的输出将迅速缩小模拟与现实之间的差距,从而让机器人能在数不清的状态、互动与环境中学习。

换言之,一个理想的世界模型,将从海量真实视频中学到了物理规律,再反过来指导和修正传统仿真器,帮助其模拟出更符合物理直觉的、更逼真的虚拟环境。

从而为仿真数据提供更加完善的发展空间,进而解决数据匮乏的问题。

高工人形机器人曾在巡回调研中收到这样的反馈,“VLA受限于数据记忆,且摩尔定律正逼近极限;相比之下,世界模型通过理解物理规律实现更优的泛化,具备成本更低、确定性更强的优势。”

这又是否意味着,未来具身智能行业对真实世界数据的需要会减少?

小结

无疑,新的模型还处于构思状态,真实世界数据依然对当前的大模型的迭代和验证至关重要。

对于数据采集和训练中心而言,最理想的模式在于构建一个以数据驱动的价值闭环:短期,通过数据采集业务为人形机器人公司“输血”,助其实现自我造血;长期,则将数据作为战略资产售予下游伙伴,其收益与反馈又反哺模型进化,形成强大的增长飞轮。

看似完美的闭环,不能忽略具身智能行业是一个技术和路线尚未收敛的行业。

从商业模式看,数采中心需采购大批机器人设备,本质是重资产运营。更关键的是,数据能否有效迁移至客户所需场景,直接关系到高昂采集成本能否转化为实际可用的数据资产。

数据的价值关键不仅在于规模,更在于其是否具备实际的应用价值与跨场景的迁移能力。

数据采集和训练到底是不是一桩好生意,还不好说。

01490c5d99569026d6280c02865a8737.jpg

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×