阅读时间大约6分钟（2350字）

2026-06-08 王启斌：当机器学会“动手”，具身智能的胜负手不在整机

来源：豆包

对于王启斌来说，这场关于“手”的革命，才刚刚开始。

作者：Baiyang 出品：具身智能观察室

2026年的具身智能赛道，喧嚣从未停止。

一边是资本热钱涌动，头部公司估值水涨船高；另一边却是商业化落地的骨感现实——“融资热、落地难”的矛盾愈发尖锐。

在这场关于未来的豪赌中，灵初智能创始人兼CEO王启斌显得尤为“另类”。

他没有追逐人形机器人的风口，也没有陷入价格战的泥潭，而是将目光死死盯在了机器人的“手”上。

这位曾亲历2018年机器人周期的老兵，带着他在云迹科技和京东机器人的实战经验，在2024年创立了灵初智能。

他的判断异常笃定：“操作才是皇冠上的明珠，移动只是入场券。”

在王启斌看来，具身智能正经历一场深刻的范式转移。以下是他关于技术路线、数据壁垒与商业终局的深度思考。

图片来源自互联网

王启斌

灵初智能创始人兼CEO。具身智能资深从业者，在消费电子与机器人领域拥有近20年的深厚积淀，亲历从功能机到智能机、从智能音箱到具身智能的多轮产业变革。

2008年毕业于乔治华盛顿大学，先后任职于黑莓（智能手机）和Sonos（智能音箱），主导公司产品的全球化研发与商业化落地，对终端产品的定义与量产有着敏锐的直觉。其在消费电子领域深耕十年，亲历移动互联网与智能硬件的关键变革期。

2018年，王启斌判断机器人将成为“下一个终端形态”，毅然转入机器人赛道，先后任职于云迹科技及京东X Lab，深入参与室内配送机器人与L4级无人车的研发，深刻洞察了移动能力的局限性与操作能力的缺失。

2024年，基于对行业周期的深刻认知，其创立灵初智能，致力于通过人类数据与强化学习，攻克通用机器人的灵巧操作难题，推动具身智能从“移动”向“操作”跨越。公司成立一年半内累计融资超20亿元，估值涨逾六倍。

以下内容综合自王启斌近期接受腾讯科技、雷锋网、科技潜线等国内媒体及自媒体专访内容。

一、拒绝“半身不遂”：操作才是皇冠上的明珠

回顾机器人的演进史，过去十年的焦点一直在“脚”上。从室内的扫地机到室外的无人车，行业解决了“移动”和“导航”的问题。但当机器人把物品运到目的地，却无法完成“放下”或“组装”的最后一步时，王启斌敏锐地察觉到了行业的痛点：“如果不能闭环去做任务操作，它一定无法解决客户需求里最重要的那部分。”

因此，灵初智能从诞生之初就锚定了一个看似“保守”的形态——轮式底盘加双臂。这在2024年人形机器人热潮中显得格格不入，但王启斌的逻辑非常清晰：

1，移动与操作的解耦：移动能力（底盘）已经非常成熟，甚至趋于同质化，不再是核心壁垒。真正的价值洼地在“操作”。

2，务实的工程选择：人形机器人虽然美好，但在当前技术条件下，双足行走的稳定性与高昂成本限制了商业化落地。轮式双臂结构足以覆盖工业、物流等主流场景，是性价比最高的“入场券”。

王启斌坚信，未来的机器人不需要长得像人，但必须拥有一双像人一样的手。“操作能力”——那种能够穿针引线、折叠纸盒、精密装配的灵巧能力，才是具身智能皇冠上最璀璨的宝石。

二、打破“Sim2Real”魔咒：人类数据是唯一的“真金”

如果说操作是目标，那么数据就是通往目标的燃料。

目前行业主流的数据获取方式无非两种：昂贵的真机遥操作，以及低成本的仿真合成数据。但在王启斌眼中，这两条路都存在致命缺陷。

遥操作的瓶颈：操作员盯着屏幕遥控，动作僵硬且慢，这本质上是在教机器人“模仿残疾人的动作”。

仿真的鸿沟（Sim2Real Gap）：在精细操作中，差之毫厘谬以千里。仿真环境无法完美模拟真实世界的物理属性（如摩擦力、物体形变），导致模型在虚拟世界里练得再好，一到现实就“水土不服”。

王启斌的解法是“人类原生数据”。他认为，人类在千万年的进化中已经掌握了最完美的操作直觉。

灵初智能摒弃了传统方案，转而研发多模态数据手套，直接在真实场景中捕捉人类手部的视觉、触觉和关节角度。这种数据自带“任务分解逻辑”和“自适应调整能力”，是机器人学习灵巧操作的最佳教材。

为了打破成本限制，灵初自研了Psi-SynEngine具身数采引擎。通过技术创新，他们将采集成本降到了传统真机方案的十分之一。目前，他们已部署百套设备，计划在2026年底前冲刺百万小时级的人类操作数据。

“只有百万小时量级的数据积累，才能触发模型能力的‘涌现’。”王启斌断言。这不仅是量的积累，更是质的飞跃，它将让机器人从“死记硬背”进化为“举一反三”。

三、双脑协同：Psi-R2与Psi-W0的“阴阳互补”

拥有了高质量数据，还需要强大的“大脑”来处理。2026年4月，灵初智能发布了其核心技术架构——Psi-R2与Psi-W0构成的双系统大模型。

这不仅仅是一次技术升级，更是对机器人学习范式的重构：

Psi-R2（世界动作模型 WAM）：它是“行动派”。负责“看懂指令，规划动作，直接干活”。基于10万小时人类数据预训练，它让机器人具备了极强的泛化能力，只需少于100条真机轨迹就能学会新任务。

Psi-W0（动作条件世界模型 AC-WM）：它是“反思者”。它不直接控制机器人，而是在后台模拟物理规律。它的独特之处在于引入了约30%的失败样本——这是王启斌的一大创举。通过让模型“学习失败”，Psi-W0能够预测动作的后果，评估Psi-R2的策略是否靠谱，从而在虚拟环境中低成本地试错和优化。

这一“行动+反思”的双螺旋结构，构成了灵初智能的数据飞轮。

王启斌形象地比喻：“Psi-R2负责冲锋陷阵，Psi-W0负责复盘推演。两者结合，才能让机器人的能力呈指数级进化，而不是线性堆砌。”

四、商业化的“中间态”哲学

面对资本对于“商业化爆发”的急切期盼，王启斌表现出了一位连续创业者的冷静。他直言不讳地指出了行业的两个“集体盲区”：

1，数据迷信：并非数据量越大越好，数据的多样性（尤其是任务多样性）远比单纯的物体或场景数量重要。

2，落地幻想：具身智能的商业化周期远比软件长，从PoC（概念验证）到大规模采购，往往需要2-3年的耐心培育。

基于这种清醒认知，灵初智能在场景选择上采取了极为务实的“中间态”策略：

不碰家庭场景：虽然诱人，但家庭环境过于非标，泛化难度极大，且用户对价格的敏感度极高，目前是“盐碱地”。

不碰纯流水线：虽然节拍快、标准化程度高，但对速度和精度的极致要求让机器人难以替代熟练工。

物流与零售，成为了灵初的切入点。例如服装仓储的拣选、商超的打包。这些场景既有丰富的SKU带来的多样性数据价值，又有相对结构化的环境，是验证机器人操作能力的最佳“练兵场”。

结语：做难而正确的事

在具身智能这场长跑中，王启斌和他的灵初智能选择了一条最艰难的路：不做简单的组装厂，而是死磕最难的“灵巧操作”；不迷信通用的万能药，而是深耕垂直的“数据飞轮”。