王启斌:当机器学会“动手”,具身智能的胜负手不在整机
统计 阅读时间大约6分钟(2350字)

13小时前 王启斌:当机器学会“动手”,具身智能的胜负手不在整机

来源:豆包
对于王启斌来说,这场关于“手”的革命,才刚刚开始。

作者:Baiyang     出品:具身智能观察室

2026年的具身智能赛道,喧嚣从未停止。

一边是资本热钱涌动,头部公司估值水涨船高;另一边却是商业化落地的骨感现实——“融资热、落地难”的矛盾愈发尖锐。

在这场关于未来的豪赌中,灵初智能创始人兼CEO王启斌显得尤为“另类”。

他没有追逐人形机器人的风口,也没有陷入价格战的泥潭,而是将目光死死盯在了机器人的“手”上。

这位曾亲历2018年机器人周期的老兵,带着他在云迹科技和京东机器人的实战经验,在2024年创立了灵初智能。

他的判断异常笃定:“操作才是皇冠上的明珠,移动只是入场券。”

在王启斌看来,具身智能正经历一场深刻的范式转移。以下是他关于技术路线、数据壁垒与商业终局的深度思考。

790f4e6a3e21302f96a14744da6ce406.jpg

图片来源自互联网

王启斌

灵初智能创始人兼CEO。具身智能资深从业者,在消费电子与机器人领域拥有近20年的深厚积淀,亲历从功能机到智能机、从智能音箱到具身智能的多轮产业变革。

2008年毕业于乔治华盛顿大学,先后任职于黑莓(智能手机)和Sonos(智能音箱),主导公司产品的全球化研发与商业化落地,对终端产品的定义与量产有着敏锐的直觉。其在消费电子领域深耕十年,亲历移动互联网与智能硬件的关键变革期。

2018年,王启斌判断机器人将成为“下一个终端形态”,毅然转入机器人赛道,先后任职于云迹科技及京东X Lab,深入参与室内配送机器人与L4级无人车的研发,深刻洞察了移动能力的局限性与操作能力的缺失。

2024年,基于对行业周期的深刻认知,其创立灵初智能,致力于通过人类数据与强化学习,攻克通用机器人的灵巧操作难题,推动具身智能从“移动”向“操作”跨越。公司成立一年半内累计融资超20亿元,估值涨逾六倍。

以下内容综合自王启斌近期接受腾讯科技、雷锋网、科技潜线等国内媒体及自媒体专访内容。

一、 拒绝“半身不遂”:操作才是皇冠上的明珠

回顾机器人的演进史,过去十年的焦点一直在“脚”上。从室内的扫地机到室外的无人车,行业解决了“移动”和“导航”的问题。但当机器人把物品运到目的地,却无法完成“放下”或“组装”的最后一步时,王启斌敏锐地察觉到了行业的痛点:“如果不能闭环去做任务操作,它一定无法解决客户需求里最重要的那部分。”

因此,灵初智能从诞生之初就锚定了一个看似“保守”的形态——轮式底盘加双臂。这在2024年人形机器人热潮中显得格格不入,但王启斌的逻辑非常清晰:

1,移动与操作的解耦:移动能力(底盘)已经非常成熟,甚至趋于同质化,不再是核心壁垒。真正的价值洼地在“操作”。

2,务实的工程选择:人形机器人虽然美好,但在当前技术条件下,双足行走的稳定性与高昂成本限制了商业化落地。轮式双臂结构足以覆盖工业、物流等主流场景,是性价比最高的“入场券”。

王启斌坚信,未来的机器人不需要长得像人,但必须拥有一双像人一样的手。“操作能力”——那种能够穿针引线、折叠纸盒、精密装配的灵巧能力,才是具身智能皇冠上最璀璨的宝石。

二、 打破“Sim2Real”魔咒:人类数据是唯一的“真金”

如果说操作是目标,那么数据就是通往目标的燃料。

目前行业主流的数据获取方式无非两种:昂贵的真机遥操作,以及低成本的仿真合成数据。但在王启斌眼中,这两条路都存在致命缺陷。

遥操作的瓶颈:操作员盯着屏幕遥控,动作僵硬且慢,这本质上是在教机器人“模仿残疾人的动作”。

仿真的鸿沟(Sim2Real Gap):在精细操作中,差之毫厘谬以千里。仿真环境无法完美模拟真实世界的物理属性(如摩擦力、物体形变),导致模型在虚拟世界里练得再好,一到现实就“水土不服”。

王启斌的解法是“人类原生数据”。他认为,人类在千万年的进化中已经掌握了最完美的操作直觉。

灵初智能摒弃了传统方案,转而研发多模态数据手套,直接在真实场景中捕捉人类手部的视觉、触觉和关节角度。这种数据自带“任务分解逻辑”和“自适应调整能力”,是机器人学习灵巧操作的最佳教材。

为了打破成本限制,灵初自研了Psi-SynEngine具身数采引擎。通过技术创新,他们将采集成本降到了传统真机方案的十分之一。目前,他们已部署百套设备,计划在2026年底前冲刺百万小时级的人类操作数据。

“只有百万小时量级的数据积累,才能触发模型能力的‘涌现’。”王启斌断言。这不仅是量的积累,更是质的飞跃,它将让机器人从“死记硬背”进化为“举一反三”。

三、 双脑协同:Psi-R2与Psi-W0的“阴阳互补”

拥有了高质量数据,还需要强大的“大脑”来处理。2026年4月,灵初智能发布了其核心技术架构——Psi-R2与Psi-W0构成的双系统大模型。

这不仅仅是一次技术升级,更是对机器人学习范式的重构:

Psi-R2(世界动作模型 WAM):它是“行动派”。负责“看懂指令,规划动作,直接干活”。基于10万小时人类数据预训练,它让机器人具备了极强的泛化能力,只需少于100条真机轨迹就能学会新任务。

Psi-W0(动作条件世界模型 AC-WM):它是“反思者”。它不直接控制机器人,而是在后台模拟物理规律。它的独特之处在于引入了约30%的失败样本——这是王启斌的一大创举。通过让模型“学习失败”,Psi-W0能够预测动作的后果,评估Psi-R2的策略是否靠谱,从而在虚拟环境中低成本地试错和优化。

这一“行动+反思”的双螺旋结构,构成了灵初智能的数据飞轮。

王启斌形象地比喻:“Psi-R2负责冲锋陷阵,Psi-W0负责复盘推演。两者结合,才能让机器人的能力呈指数级进化,而不是线性堆砌。”

四、 商业化的“中间态”哲学

面对资本对于“商业化爆发”的急切期盼,王启斌表现出了一位连续创业者的冷静。他直言不讳地指出了行业的两个“集体盲区”:

1,数据迷信:并非数据量越大越好,数据的多样性(尤其是任务多样性)远比单纯的物体或场景数量重要。

2,落地幻想:具身智能的商业化周期远比软件长,从PoC(概念验证)到大规模采购,往往需要2-3年的耐心培育。

基于这种清醒认知,灵初智能在场景选择上采取了极为务实的“中间态”策略:

不碰家庭场景:虽然诱人,但家庭环境过于非标,泛化难度极大,且用户对价格的敏感度极高,目前是“盐碱地”。

不碰纯流水线:虽然节拍快、标准化程度高,但对速度和精度的极致要求让机器人难以替代熟练工。

物流与零售,成为了灵初的切入点。例如服装仓储的拣选、商超的打包。这些场景既有丰富的SKU带来的多样性数据价值,又有相对结构化的环境,是验证机器人操作能力的最佳“练兵场”。

结语:做难而正确的事

在具身智能这场长跑中,王启斌和他的灵初智能选择了一条最艰难的路:不做简单的组装厂,而是死磕最难的“灵巧操作”;不迷信通用的万能药,而是深耕垂直的“数据飞轮”。

“我们不仅要教机器人走路,更要教它们学会用手创造价值”,王启斌表示。

当行业泡沫退去,那些真正掌握了核心数据资产、解决了物理世界交互难题的企业,才会成为最后的赢家。对于王启斌来说,这场关于“手”的革命,才刚刚开始。

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×