灵宇宙顾嘉唯:为什么我选择南坡——AI硬件终端与具身智能的另一条路
统计 阅读时间大约7分钟(2440字)

3小时前 灵宇宙顾嘉唯:为什么我选择南坡——AI硬件终端与具身智能的另一条路

来源:灵宇宙
以第一视角数据,稳步走向具身智能。

家庭陪伴机器人的价值,不在于实现某个单一功能,而是在持续使用中构建专属的成长轨迹与情感记忆,进而形成真实可依赖的深度陪伴关系,真正做到让人离不开。

研发逻辑:上半身通用,下半身专用

在技术路线选择上:上半身的手一定是要做通用的,而且是越泛化越通用、往下打的逻辑;下半身和移动这件事,其实是专用的。无论从效率还是可靠性来看,家庭场景里没必要强行模仿人类行走。空间本来就有限,轮式、足式或其他移动底盘,只要完成专属、稳定、安全的任务就够了。但上半身的操作,与真实物理世界的协作,有大量不可替代的必要性,高度符合人类在真实环境中操作的特殊性。

从这个角度理解物理世界,至少在地球上,用通用化的手型结构去实现样本泛化(Moonshot)会更有价值。

另外,物理世界的数据本身存在局限性,而且高度非结构化,很难像文本Token那样标准化、规模化利用。大家对物理世界智能的预期,可能还是有点偏高了。这也是为什么我们要先铺量采集数据。没有规模化的设备部署,一切都无从谈起。这正是南坡路线的根基。

AI硬件的核心,为什么是“终端”而不是“产品”?

AI硬件和具身智能的成败,取决于一个核心公式:感知信息获取维度 × 真实世界数据构建的量级。

对应到平台,逻辑也一致。大模型平台的核心是"智能密度 × Token消耗量"。而我们硬件平台的核心,是"上下文信息获取维度 × 真实空间使用量级"。硬件只有获取多维度传感信息,在真实场景中完成规模化数据积累,才能形成真正的壁垒。

为什么要做硬件?因为软件一定会被基模吞噬。但硬件不一样,硬件是流量入口,硬件是数据入口,硬件能形成品牌心智。而且我们已经跑通了,商业模式进化,心智定价迁移,毛利率跃迁,这生意能赚钱。做"产品"很危险,模型升级直接干没。要做只能做"终端"。长在技术延长线上的容器属性终端,能持续受益于技术红利溢出效应并实现自身升级。

AI时代的教育范式:以随身终端为入口

教育正在发生根本性变革。未来人类将从独立思考,转向与AI的协同思考。教育的核心也应从知识传授,转向激发孩子的好奇心与探究欲。在与大模型的互动中,一个好问题、一次有效对话,能带来强烈的成就感与探索乐趣,这正是新一代学习的核心动力。

传统桌面式设备难以满足高密度、即时性的信息获取需求。第一视角的随身AI终端,不再是应答式的工具,而是能与人类深度互动的AI伙伴。它能更自然地融入真实生活场景,从"随时随地想问就问"的被动响应,升级为主动(Proactive)参与用户的学习与生活。随身终端让AI从屏幕走向物理世界,成为AI native 时代的核心学习入口。“万物即教材,世界即教室”正是这个趋势最直接的表达。

从AI终端的演进逻辑来看,未来的智能设备必然会从桌面形态走向随身形态。只有随身AI,才能真正构建起时间序列连贯的人生上下文(life context),让数据源从单一的屏幕信息,扩展到更广泛的真实世界场景数据,为AI模型提供最真实、最持续的成长养料。

南坡路线:以第一视角数据,稳步走向具身智能

当下具身智能领域里,多数玩家都在走北坡路线:直接通过仿真与遥操作,攻坚完整人形机器人,相当于一步到位去做 L4/L5 自动驾驶。故事很美,天花板极高,但边界极度发散、商业化极度不确定。

我们选择南坡路线:先做家庭陪伴机器人领域里的 “扫地机”,让边界更收敛、技术红利可溢出、商业化路径更清晰。具体来说,就是先通过小方机这类轻量化 AI 硬件终端大规模落地,采集海量第一视角 EGO vision 数据,再逐步向具身智能演进。类比特斯拉的纯视觉方案,海量用户本身就是我们天然的数据标注方。

具身智能最核心的短板,其实是真实世界的行为数据。文本和模型已经打通,但物理世界空间和行为并没有跟模型打通。人形机器人真要进家庭,最缺的是什么?不是遥操、不是仿真,而是第一视角的“人在物理世界怎么操作任务”:从走进房间到坐下来倒水,再到打开电脑插上电源…… 这些过程现在几乎是没有数据的。

通过随身式智能硬件规模化采集这类数据,能够构建极具战略价值的真实世界行为索引,为后续具身智能的进化打下扎实基础。

物理 AI 驱动下的陪伴式教育

我们推出小方机,目标是抓住 AI 时代的 “步步高 + 小天才” 机遇,打造每个“10 后”的随身 AI。

当年步步高精准踩中了全民学电脑”的时代风口:家长想让孩子学486/586,“步步高学电脑”应运而生。今天家长焦虑AI,迫切需要“AI时代的步步高”。如果说小天才是上一代孩子的功能机,我们做新一代孩子的AI Phone。

选择服务 “10 后” Gen Alpha 这个群体,有着深层战略判断。他们是真正的AI 时代原住民,AI对他们就像空气,从小与AI共生。他们最适合在持续的数据积累中,被完整刻画个人场景与成长需求,构建全天候、全生命周期、独一无二的人生上下文。同时,这一人群也具备最清晰的商业价值:家长不愿他们长时间面对屏幕,而愿意为随身AI智能体相关新产品付费。对家长而言,这不是消费,是对孩子未来的投资。

从产品定位来看,Luka像是iPod,把单一功能做到了极致。小方机对标iPhone,是all in one的智能终端。大模型后世代,做单功能"产品"很危险,模型升级直接干没。因此我们坚持做 “终端”,做一条能够持续承接技术红利、不断自我进化的容器型硬件。

双螺旋战略与经验总结

这件事不是一年两年想出来的。

十几年前,我在百度主导BaiduEye的时候,就以第一视角视觉理解和语义对话为核心,定义了无屏眼镜形态的随身可穿戴设备,这比Meta提前了10年。此后,我们从投资Jibo、Knightscope、Rethink Robotics 三家美国头部机器人本体公司,到打造Luka 卢卡阅读机器人,一步步完成了从视觉感知、人机交互到量产硬件的完整验证。

Luka教会我们一件事,量就是壁垒。1000万台设备跑着,数据就是壁垒。但Luka是深度学习时代的产物,单功能、单场景。大模型来了,我们把它升级成all in one的小方机。小方机的下一站,就是具身智能。

今天我们的战略是双螺旋耦合:小方机随身 AI 硬件终端这条线构建数据涌现(关系算法/软件AgentOS);Luka 升级家庭机器人这条线构建物理执行闭环(空间交互算法/具身智能)。

这两条螺旋相互缠绕、彼此驱动。支撑这个战略的,是两道别人短期烧不出来的数据墙:

一是存量壁垒:25B+级儿童交互意图数据。这是过去1000万台Luka、十年时间攒下来的,包括全量口语对话、指尖点读、绘本等桌面场景行为、家庭全时段行为数据。别人没有。

二是增量数据:小方机正在获取EGO Vision第一视角的增量数据。真实世界的视场视觉、空间指向、动作行为,是整个具身智能行业最稀缺的东西。

数据之上,我们正在构建空间智能操作系统LingOS。它不是传统的机器人操作系统,而是面向空间交互的AgentOS,具备主动意识、拟人感和长短期记忆,提供"造人、造景、造记忆"的中台能力,支持第三方开发者快速接入,顺应vibe coding的浪潮。

硬件形态,是《Her》式的随身设备;软件形态,是Agent版的AI Facebook。两者叠加,通过铺量解决物理世界数据缺失问题,进而驱动AI硬件终端的长期发展。人形机器人、智能眼镜,都在射程之内。

image.png

9671c9846a27d30d88c1fe6a1d687307.jpg

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×