圆桌对话:模型跑不通,不只是数据的锅?
统计 阅读时间大约9分钟(3212字)

3小时前 圆桌对话:模型跑不通,不只是数据的锅?

来源:高工人形机器人
具身智能是一个长坡厚雪的赛道

作者:Cindy     出品:高工人形机器人

数据,是2025年直至现在,在具身智能行业的热门关键词。

各地密集落地的数采工厂、专营机器人数据的公司、各个企业持续迭代的数采设备,种种变化都印证了一个结论:数据赋能模型已成为全行业共识。

自从Generalist AI用27万小时数据实现模型能力飞跃式提升之后,彻底引爆了具身智能行业。自此,大家纷纷开始以百万小时为目标奋战,一场围绕数据的狂热军备竞赛全面爆发。

但当前的数据体系并未收敛,存在视频数据、真实数据等多种数据类型,也有真机遥操、UMI等多种采集方式,每种方式都有其优劣,需要在舍弃与获取之间做出权衡。

为了厘清具身行业的痛点,进一步搞明白数据与模型的难题,高工人形机器人、高工咨询在上海举办了一场圆桌对话,围绕“什么样的数据与模型,才能支撑机器人进入真实场景?”“VLA还是世界模型:具身大模型的主线会走向哪里?”“具身大模型如何从Demo能力走向部署能力?”这三大主题进行深度解析。

这场圆桌会议对话,每一位嘉宾都用最真实、直接的语言给大家分享。前有千寻智能副总裁孙荣毅直接表明当前不少企业迫于资本压力,刻意夸大落地规模、渲染技术成果;后有松应科技CEO聂凯旋逆流而行,不认为追求大而全的数据量是一种好路线。

本文基于圆桌内容,深度还原各位嘉宾的观点,试图为具身智能行业理清思路,照亮微光。

d6e781b2dc29381d3132199aae2b97e4.jpg

破除Demo泡沫

随着机器人行业的热度持续攀升,大量初创企业入局竞争,市场上出现了一个个“炫酷”的机器人Demo。

但光鲜的PPT背后,实际的产品效果却参差不齐,已然成为资本市场最为关注的一个问题。

本次圆桌论坛上,高工咨询的总经理郑利瑶直击这一痛点,现场联动投资人,让嘉宾聚焦“如何判断这些Demo与模型的真假?”这一问题进行解答。

北京人形机器人创新中心世界模型负责人邹世龙率先发言,他认为,首先可以看团队里的人怎么样?其次现在其实没有一个统一的标准来判断模型的优劣,所以他补充道,需要一个正规化、规范化的平台去评价模型。

0c35364e88e2361da7af17e72ac78dc2.jpg

北京人形机器人创新中心世界模型负责人邹世龙

而松应科技CEO聂凯旋则从模型的标准出发,指出具身大模型的能力是否达标,应该由最终的消费方或场景方来定义。即不能单纯追求模型能力的强度,如果模型没有落地产生实际价值,那么也就没办法获得市场认可。相反,如果贴近未来的消费者和用户的需求去设计模型,即使不是所谓的超级智能体或者世界模型,也能满足当前场景设计的需求。

这一点也被越来越多从业者所支持,今年能看到一个非常显著的变化是,越来越多的具身智能企业开始关注于真实场景的需求。

星源智机器人联合创始人何嘉伟也是从行业最关心的落地方面来解释,他认为判断Demo真假最可靠的因素还是能真正进入到一个场景里落地,只是这里面不只有模型,还有硬件、软件、系统等都得处于一个可以交付的状态。

0ad8ed77bee8287c4c0df4beb9ead2d8.jpg

星源智机器人联合创始人何嘉伟

千寻智能副总裁孙荣毅也持有类似的观点,同时他还纠正了一个知识误区,对当下将具身智能与人形机器人划等号的企业进行了否定,认为大家要有分辨能力,去判断“什么事情是具身智能该干的?具身智能应该干什么?”。

所以,对孙荣毅来说,客户怎么说很重要;产品到底干的是什么事情?是传统机器人就能干的,还是只有具身智能会干的,也很重要。

基于此,孙荣毅最后还对大家发出提醒,具身智能目前是一个长坡厚雪的赛道,眼光一定要放长远,好多企业受限于资本的压力,会发一些夸张的信息,比如几千台机器人在工厂里量产落地,这就需要大家长远地看看究竟符不符合事实和常理。

数据的价值和难点

在破解Demo泡沫、回归场景落地的行业共识下,数据采集成为本次论坛下一个研讨重点。当下有很多公司想要通过数采工厂的方式想要去实现数据的正向循环。截至2026年3月,中国已建成、在建及规划的人形机器人数据采集/训练中心超过50家。

但数采工厂的方式究竟有没有用呢?如果没用,实际上现阶段应该通过什么方法来实现前端的高质量数据持续采集?

对于这一问题,孙荣毅首先表示要先定义什么是高质量的数据。模型的泛化能力来自于数据的多样性,所以多样性肯定是高质量数据的一个重要维度;其次是多模态,比如触觉、力觉等;最后还有低成本。

孙荣毅还在对话中坦言,2025年全国各地建立的许多数采场,实际上采集的很多都是低效重复的数据。而且在模型训练、数据处理以及模型治理这几个方面的技术也是不完整的,这就导致商业模式的不完整,即使以最低的价格卖数据也卖不出去,因为数据的售卖主要看价值,没有价值自然不行。

f04aea8ddcf4947f7f6842c8ed2f0b76.jpg

千寻智能副总裁孙荣毅

行业内总是讨论什么样的模型才能进入真实场景,其实首先数据就得来自真实场景,这叫从真实场景中来,到真实场景中去。

何嘉伟进行了一些补充,他认为现在各地数采工厂的一大痛点就是跨本体跨场景的泛化数据用不起来,这同样也是模型的局限性。

大公司可以做一套属于自己的数采系统设计,但这对很多初创企业并不友好。所以像星源智就会在探索预购数据的同时,也在考虑减少数采的成本,未来可能会做一个真实数据的范式来解决这些问题。

中科第五纪联合创始人& COO曹恩华更是进一步强调了真实数据的重要性,他断言:“模型不和真实数据结合,想要进入到工厂以及其他真实场景,是做不到的。”因为在那些场景中会有很多意外干扰,而这种过程中的变化只有结合真正的bad case才能优化模型。

针对这些痛点,曹恩华又给出了他们的解决方法,他表示中科第五纪现在在构建从模型到数据到部署的一个闭环体系,实现这样一个闭环之后,就能降低数据成本,也能更进一步训练更强大的模型。

聂凯旋则跳出传统的数采思维,提出全新的数据交互构想:机器人在物理环境和其他机器人协同的时候,不一定采用人类的沟通方式,它们可能彼此之间直接进行数据交互。

74dd66450e97487d37a22fb940486510.jpg

松应科技CEO聂凯旋

对于数据量,聂凯旋更是与大众持相反意见,他不认为追求大而全的是一种好路线。“现在都预测当数据量足够庞大的时候,模型能具备所有的能力。但是在没有这个数据之前要怎么办?比如1到3年、3到5年甚至更长,都没有凑齐数据,那时候该怎么办?”

在他的构想中,未来的终极模型可能是一种分级的模型,一个超级智能体做决策执行,其余二、三级智能体去完成相关任务,这种分层模型反而更有可能落地。

模型跑通的核心门槛

模型是下限,数据是上限。讲解完Demo和数据之后,圆桌的最后一个议题回到了模型本身,直指模型跑通的核心门槛。

邹世龙对其发表了自己的看法,首先提出了前面讨论的高质量的数据;其次是模型,邹世龙认为未来一两年,在算力和数据堆上去的情况下,可能模型之间都相差不大,所以在模型建好之后,Sim2Real就很重要了;除此之外,就是整个硬件系统。这几环都是缺一不可的,全都完善之后可能离落地就比较近了。

聂凯旋则强调了基础设施与场景的重要性,他表示可落地的模型要拥有专业知识背景,同时要掌握一定的物理定律,比如掌握了电力的数据,那么就可以在各个行业使用电力的知识。

而且未来一定是场景化的机器人,而不是行业化的机器人,单一场景可能会用到大量不同形态的机器人,所以只有先定义好场景,完善好基础设施,模型才能更好地部署到真实场景。

深耕于传感器的陈书厅,则从硬件数据出发,认为在大模型的训练中,除了视觉之外,第二重要的就是触觉。但现在触觉的技术还没有收敛,对于大模型来说,不同机理的触觉传感器就是不同的数据,可能就先要把触觉传感器尽量统一。还有就是要做到量产和一致性,到这个阶段,大模型就比较宝贵了。

4593411fbd2a1d639b1e203f97b4bf14.jpg

福莱新材的首席科学家陈书厅

曹恩华结合产业合作案例总结道,大模型有两个主要的门槛,第一个是普遍的共识——数据成本过高,第二个则是VLA应该和世界模型相结合,他们认为VLA是类似于机器人的“大脑”,告诉它该怎么做、做什么;而世界模型是“小脑”,起到预测、判断的作用,告诉它有没有危险。

0dcbb3f17f2125e36f426355ecc72c8a.jpg

中科第五纪联合创始人&COO曹恩华

因为VLA没法在高可靠、高速度的工业场景下做到零失误,而世界模型又很难高效地生成复杂的执行轨迹,所以两者可以结合以弥补各自的缺陷,并辅以高可靠的校验机制,从而实现更好地落地。

何嘉伟将视角聚焦回模型本身,认为要做好模型的设计,使其与数据更适配,然后模型的端侧部署能力也很重要。

孙荣毅最后补充了两点,他认为门槛主要在于模型的基模能力,在基模能力不强的情况下,做应用是非常有限的;其次,具身是一个很大的系统,没有一个好的infra平台,整套的功能闭环可能就没法沉淀下来,那么后面的模型迭代会很慢。

本次圆桌论坛,嘉宾们反复提到了数据对模型的重要之处,精准揭示了模型落地的门槛以及高质量数据的稀缺这一行业难题,还补充了一些独特的视角。

总而言之,每一位嘉宾都有着不同的看法以及不同的解决措施,但最终都会殊途同归。正如嘉宾所说具身智能是一个长坡厚雪的赛道,技术路线本身的分歧并不重要,解决问题、到达山顶才是最重要的。

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×