阅读时间大约5分钟(1678字)
作者:沙克 出品:人形机器人洞察研究
摩根士丹利最新发布的报告敏锐地指出二零二六年模型能力将成为拉开人形机器人企业差距的核心变量。当前底层认知架构远未定型,而数据与算力两座大山依然横亘在通用人工智能落地的必经之路上。整个产业注定要在妥协与务实中阶梯式前行,而非盲目期待指数级的技术爆发。
核心内容概览
视觉语言动作模型目前占据绝对主导地位,但产业界正积极探索全新的模型架构以推进机器人大脑的深层演进。
真实多模态数据的规模与多样性严重匮乏,成为限制大脑能力扩张的首要短板。
边缘计算能力捉襟见肘,难以满足人形机器人与真实世界实时交互的低延迟需求。
头部玩家正通过提升仿真质量、建设数据工厂以及采用跨本体数据等多线并行的策略来破解严峻的数据困局。
人形机器人赛道将不可避免地演变为一场规模游戏,结构性优势将随着时间推移不断拉大领先者与落后者的能力差距。

架构之争:
视觉语言动作模型的局限与探索
报告揭示当前绝大多数海内外厂商均押注视觉语言动作模型架构。这种架构能够将视觉图像或视频与指令直接映射为可执行动作,其应对多变物理世界的能力显著优于传统的分层模型或基于死板规则的模型。然而实际部署依然障碍重重,目前的模型在理解物理特性、处理长周期任务、应对环境多样性以及降低延迟方面面临巨大挑战。
英伟达人工智能总监吉姆范直言这种架构过度依赖语言和知识,缺乏对底层物理规律的深刻理解,从而限制了机器人与真实物理环境的有效互动。

报告清晰地展示了产业界为解决这一痛点所演化出的四条关键技术路径,包括模块化视觉语言动作模型、端到端视觉语言动作模型、视觉语言触觉动作模型以及世界模型。
大部分中国公司短期内仍将以视觉语言动作模型为主攻方向,并通过引入思考推理模块或强化学习来逐步提升性能。

报告剖析了星海图的模块化设计理念,该架构巧妙引入了双系统机制,利用视觉语言模型进行慢思考规划,同时交由视觉语言动作模型进行快执行。

同时展示了自变量机器人的端到端破局思路,其模型直接接收视觉与语言输入并同步输出连续或离散的动作指令。

帕西尼感知科技则另辟蹊径,报告揭示了其模型深度整合触觉编码器的技术细节,这种视觉与触觉的双重感知专门用于攻克仅靠视觉根本无法完成的物理接触任务。

同时研究机构正将目光投向更具颠覆性的世界模型。
蚂蚁集团旗下团队研发的视频动作模型,该模型通过内部模拟预测环境动态与未来状态,赋予了机器人预见未来的能力,以此提升对全新任务的泛化表现。
数据饥渴与算力镣铐:
填补仿真到现实的鸿沟
数据规模与多样性是目前卡住模型演进的最大瓶颈。大语言模型可以尽情吞噬互联网海量文本,但用于训练机器人的视觉、状态、动作与奖励数据却极其稀缺。

数据金字塔深刻揭示了这一矛盾,处于塔尖的真实机器人数据质量极高但获取成本高昂且极难规模化,中层的合成数据具备可扩展性但受限于真实度,底部的互联网视频虽然海量却缺乏物理基础与力觉反馈。面对这一窘境,行业正试图通过多重手段破局。
美国企业倾向于通过高质量仿真系统降低预训练的数据需求,而中国企业则依靠强大的政策支持开始建立数据工厂,利用庞大的人形机器人车队进行标准化任务以批量生产数据。
此外跨本体数据融合正在打破单一硬件的数据孤岛。

上图可以清晰地看到这种演进趋势,英伟达此前的N1.5模型中包含百分之二十七点三的真实GR-1数据,而最新的N1.6模型则史无前例地整合了来自宇树科技、智元机器人以及双臂机器人等异构硬件的模拟与遥操作数据。
这种数据通用性能够显著增加高质量数据的可用规模。算力瓶颈在产业狂热中往往被低估,但这对于实时交互的人形机器人而言却是致命的制约。物理世界无法容忍长达数分钟的思考延迟,云计算的通信延迟同样无法满足实时控制的严苛要求。这直接迫使当前的机器人模型参数量只能委曲求全地控制在一百亿级别以下。
调研显示,即使是提供极高浮点运算能力的英伟达最新Thor芯片,许多公司依然表示其性能不足以满足边缘计算的庞大需求。

报告详尽盘点了中国市场上群雄逐鹿的大脑玩家阵营,阿里巴巴、腾讯、百度与小米等科技巨头,以及地平线等底层芯片厂商,共同构成了支撑这一产业前行的复杂生态网络。
最终拥有庞大部署规模的企业将截获海量真实世界反馈,实现更优的策略训练并形成正向数据飞轮,从而在长期的算力与数据博弈中确立不可逾越的结构性壁垒。
资料来源:《Morgan Stanley-China Industrials - Asia Pacific The Humanoid Signal - How Will the Robot _Brain_ Evolve》
