余轶南博士:具身智能没有巨头,只有快鱼吃慢鱼
统计 阅读时间大约10分钟以上(7057字)

2025-05-06 余轶南博士:具身智能没有巨头,只有快鱼吃慢鱼

来源:高工人形机器人公众号
余轶南的决定总是“反共识”的。

作者:Levi. 出品:高工人形机器人

余轶南的决定总是“反共识”的。

从亲手创立、历经千难万险终于走到上市的公司离开,转而投身一个尚处于起步阶段、充满不确定性的全新领域——这对任何人来说,都是一次极艰难的决定。

然而余轶南做了这样的决定。

2024年10月,智驾芯片巨头地平线成功登陆港交所,成为年内港股规模最大的科技IPO。然而,仅两个月后,地平线副总裁、创始团队成员之一的余轶南离开公司,创办了机器人明星产品团队“维他动力”,投身尚处于蛮荒状态的具身智能赛道。

更令人意外的是,在100天内,维他动力便完成了两亿元融资。

“等做机器人的时机,我已经等了十年。”他说,“现在技术和市场条件都已成熟,时间窗口正在迅速关闭,再不入局,就晚了。”

他预判,未来的具身智能赛道只会留下3家头部玩家。维他动力要成为这条赛道的全球领导者,机会的门只会开一次。

维他动力创始人兼CEO 地平线前智能驾驶总裁 余轶南

在行业普遍认为,具身智能将首先落地于封闭、可控的To B工业场景,将机器人定位为“生产力工具”时,余轶南却反其道而行,主张To C才是首选落地场景。他将具身智能定义为“人类的伙伴”,目标直指个人与家用机器人。

按照他的路线图,维他动力的首款产品将是一款面向户外的消费级四足机器人:既能陪用户出行,也能背负物品、完成拍照等任务。紧随其后,则是具备基础收纳与整理能力的家庭服务机器人。

更激进的是,当行业大多将商业化时间表设定在2026甚至2027年时,余轶南却决定——今年就交付第一款产品。

留给他们的时间,只剩7个多月。

作为一位已经踩过无数坑的创业者,余轶南为何做出多个“反共识”的选择?他到底看到了怎样的未来?

在4月10日的2025高工人形机器人技术应用峰会上,余轶南首次以“具身智能创业者”的身份亮相,并发表公开演讲。会后,我们与他坐下来聊了聊——谈话,从那个“转身”的决定开始。

机器人应该是人类的伙伴

高工人形机器人:您决定从智驾领域,转身进入具身智能的最核心原因是什么?

余轶南:入局机器人行业我已经思考了十年,但今天我才有勇气进入这个赛道,去实现这个目标。从宏观角度来看,主要有三个原因。

首先我认为算力、电力和智力等核心能力已经成熟,这奠定了今天机器人行业爆发的最核心基础。

算力方面,目前仍然遵循摩尔定律,每18个月翻一倍,只不过是从过去的CPU到今天专用的AI计算芯片。电力方面,核心在于电池的能量密度,它以 10 年为周期倍增。在过去10年里,电动汽车带动了电池能量密度的整体提升,让我们今天有机会仅用很小的体积就能实现长久续航。

最关键的就是,AI的智力也在不断提高。在相同的计算密度或计算量的情况下,模型的性能以100天为一个周期倍增。也就是说,每100天,相同算力的模型性能就能达到过去2倍模型的效果。

同时大模型的突破,从单模态到多模态大模型,让机器人自主理解环境成为可能。

过去的模型训练是一个由多个子任务组成的过程。我们会将宏观命题拆解成一个个具体的子任务,然后分别进行数据处理、训练框架、训练模型和评测等工作。这是一个标准的工作流程,每个模型都需要一套独立的团队和流程来实现。

在过去 3-5年左右的时间里,以 Transformer为基础的预训练大模型逐渐成为行业的主流方向。随着模型规模的不断扩大,其性能也在持续提升(Scaling law)。训练范式也从过去需要大量人工标注的监督学习,转向了通过海量数据进行预训练的无监督学习模式。

最近几年,在互联网和汽车行业等领域,我们看到了更新颖的训练范式,整个技术范式从模仿学习转向了强化学习,形成了一个完整的技术闭环架构(Real2Sim2Real),而且这个技术闭环架构,是围绕着具身智能、机器人开展的。

最后则是从需求端来看,社会服务力呈现不足,高品质服务需求上升。

全球正面临两个重要的人口趋势:一方面,人口老龄化加剧;另一方面,新生人口数量持续下降。这两者之间的剪刀差,导致全球劳动力人口数量不断下降。

与此同时,人类的物质生活已经极大丰富。宏观来看,全球范围内并非产能不足,而是产能过剩,某些地区甚至更加严重。在这种情况下,社会对服务,尤其是高质量服务的需求和迫切性,在过去十年中持续上升。

而根据相关数据显示,55%的年轻消费者愿意花钱购买服务以节省时间,从而有更多时间专注于自己的事情。

行业成熟、技术突破、用户需求,三者兼备,我认为,现在正是发展通用机器人的历史性机遇。

高工人形机器人:什么促使您在这个时间点,决定出来在新的赛道上重新创业?

余轶南:现在技术与市场都已经初步成熟,时间窗口正在迅速关闭。我们预判未来的具身智能赛道,应该只会剩下3家头部企业。

高工人形机器人:为什么您给新公司取名“维他动力”(Vita Dynamics)?这个名字的寓意是什么?

余轶南:“Vita”代表的是生命与生命力。今天的机器人,很少能让人感受到生命感,而我们认为,生命感应该是机器人不可或缺的一部分。我们希望,我们的机器人产品,乃至整个品牌形象,都能让用户真正感受到:机器人也可以拥有旺盛的生命力。这是我对维他动力产品的期许,更是我们长期愿景与使命的核心所在。

高工人形机器人:您未来的产品主要会通过哪些方面,让用户感受到这种生命感?

余轶南:其实关键在于:你如何定义机器人。

如果你把它定义成一个工具,那它的最佳形态就是简约、低成本、高效——强调的是“精准”和“效率”,这就是一种典型的“工具感”。

但如果你把机器人定义为你的伙伴,那你一定会希望它是温暖的、灵动的、富有生命感的。这其实是一个产品最顶层的设计命题——我们今天在讨论机器人时,往往忽视了这一点。

当我们把机器人定义为“伙伴”,我们自然也会希望它是亲和的。那什么是亲和?

首先,就像人与人之间的交流一样,你会希望它的存在是温暖的,材质是柔和的,而不是冰冷坚硬、充满棱角的。这些亲和感,最终都会体现到机器人外观、材质、动作等各种细节设计中。

其次,作为“伙伴”的机器人,陪伴只是最基本的功能。真正理想的伙伴,是能在你需要的时候给予帮助,甚至能陪你一起成长、共同进步。我们对“伙伴”的理解,正是这样一种更深层次的连接。

再往下,我们就会拆解到技术层面。一个具备“伙伴感”的机器人,必须具备优雅、温暖的行为能力,比如它的动作应该是自然且柔和的。与此同时,它还必须是安全的,必须能够保护你,而不是带来伤害。

这种安全,不只是物理层面的,还包括汽车行业讲的“功能安全”,我们需要把机器人在不同场景下的失效管理、故障应对、AI安全等问题考虑清楚。这些,都是我们在做模型训练、收集数据和写代码时必须落实的目标。

这些综合在一起,才是我们理解中,一个有生命感、真正能成为“人类伙伴”的机器人,所应具备的基本要素。

年内将发布第一款户外四足机器人

高工人形机器人:你们为什么一开始就选择做室外场景的机器人?又为什么会想到去做家庭方向,而不是像很多厂商那样,先从服务业或工业切入?

余轶南:我们认为,产品的落地不仅仅是一个技术问题。如果只是讨论技术,那我们可以一味去追求“更快、更强、更先进”。但当我们冷静下来,真正思考“什么是产品”的时候,就会发现,产品的本质,其实是在一系列受限条件下,寻找最优解。

那这些限制来自哪里?比如说产业链的成熟度,它体现在能力、成本、供应等多个维度;还有技术的成熟度。我们在行业里经常看到一些demo视频,技术看上去很“哇塞”、很震撼,觉得这个技术超牛逼,行业竟然已经能做到这样的水平。但实际上,拍出一个demo可能只是技术团队反复尝试多次,最后选出成功的一次。而这种demo的背后,技术的成功率可能连50%都不到。

但做产品不一样。产品最终是交付到用户手里的,用户怎么样使用它,在什么样的环境使用它,其实是很不可控的。因此,一个真正能被交付的产品,它必须具备极高的稳定性、可靠性,以及任务完成的一致性和准确率。有时候这种要求甚至高达 99.9999% 的稳定性。

这个时候,你需要去看什么样的技术,在今天用在产品上是可行的、最佳的,以及技术到底能实现怎么样的能力,这样的产品是不是真的成立,而不是交给用户一个“超牛逼”但完全不可用的东西。

所以我们认为,做产品,必须对技术有深刻的洞察,而不是盲目追风。同时也要对用户负责,确保产品是他们真的能用、用得好、有价值的。

基于这样的前提,我们选择了做户外四足机器人家用机器人。我们判断,这两个方向在可预见的时间窗口内,是最有可能实现产品化、真正送达用户手中,并创造实际价值的落地形态。这是我们当下最核心的产品目标,也是维他动力所坚持的产品观。

这个是我们产品追求的核心目标,但是我也认为,一个企业需要去捅破技术的天花板。因此,我们在公司内部设立了一个独立的技术团队叫 Vita Lab,这个团队不以落地为目标,而是专注于突破技术天花板,朝着世界最前沿的方向去做研发。这两个体系是相互独立的——一个做产品交付,一个做技术突破。

高工人形机器人:既然您刚才提到,产品必须能真正交付到用户手里,那能否透露一下,目前这款产品预计什么时候可以正式上市、面向用户销售?

余轶南:我们在这件事上的节奏,其实是蛮激进的(笑)。可以说,我们也给团队施加了不小的压力。

最初的预期是,这款产品大概需要一年多的时间才能完成。但说实话,我们的团队真的非常给力。公司成立到现在大概四个月左右,整个研发进展比我们预期的要快不少。

所以我们也在不断思考:这个时间点能不能提前?而且我们非常希望能尽可能把它往前提。原本的计划是明年年初,大概在Q1或Q2实现量产落地。但从目前的开发进度和市场节奏来看,我们正在努力把发布时间提前到今年年内

高工人形机器人:行业普遍认为“家庭场景”技术难度高、落地困难,而您却将第二款产品定位在家用机器人上。为什么会做出这样的决定?

余轶南:大家普遍认为家用机器人的落地难度很大,这确实是当下一个非常直觉性的行业认知。但我们有一些不同的看法。

我们认为,家庭是通向通用智能的核心场景,如果你把家庭中的任务都拆开来看,而不是设想一个机器人要“一揽子”解决所有问题——思路会完全不一样。我们假设,机器人只承担其中一部分任务,而不是完成全部工作。那么你就会发现,家庭里其实蕴藏着非常丰富、细分的应用场景。

我们内部会用一个术语叫 ODD(Operational Design Domain),这个词最早来自汽车行业,意思是“操作设计域”——也就是我们要把产品可能面对的所有真实场景一个个拆解出来、单独分析:比如,这个场景里机器人是否能胜任,它需要什么能力,有多少不确定性等。

举几个例子就很清晰了:

  •  “帮我清洁马桶”是一个 ODD。 

  •  “整理一下沙发”是一个 ODD。 

  •  “帮我倒杯水”也是一个 ODD。 

每一个看似简单的日常互动,其实都可以被定义成一个可独立分析的 ODD。当我们把这些家庭 ODD 拆解出来后,就可以用两个维度来对它们进行评估和标记:

第一个维度:技术复杂度

这里面有一部分场景是做简单的抓取和放置,还有一部分是需要做复杂的组合动作,甚至是双手的组合动作,或者是要和一些家用电器进行交互。

所以如果我们以“技术复杂度”来对场景一个一个打标签,我们就会发现,有些场景它的操作比较简单,我们定义为简单场景;而有些操作就相对复杂,这是复杂场景。

第二个维度:失效成本(容错率)

这是一个非常现实的维度。比如:

  •  拿积木放进盒子,如果掉了,捡起来再放就行,几乎没有失效成本; 

  •  但如果是拿一个高脚杯,不小心掉在地上摔碎了,不但损坏物品,还要清理残局,失效成本就非常高。 

我们把所有 ODD 放在一个二维坐标系上来看:

  •  横轴代表任务的复杂度; 

  •  纵轴代表失效成本的高低。

你会发现:左下角是“简单 + 低失效成本”的场景,比如整理床铺、放好枕头、铺平被子;而右上角是“复杂 + 高失效成本”的场景,比如清理餐后餐具、处理液体垃圾。

从当前技术发展来看,我们并不能完成右上角的任务,但左下角的那些 ODD,是我们在技术上可以胜任、可以产品化的部分

所以我们要问自己一个问题:我们是要做一款真正能落地的产品,还是去挑战那些前沿、尚未成熟的技术?

要突破技术的天花板,我们当然要去瞄准右上角那些高难度、高价值的场景,做长线攻关;

但如果我们想要在现实中落地,那就要聚焦左下角——那些当前技术能力内可以解决的任务,把它们打磨成一个真正可交付的产品。

在这种理念下,我们会告诉用户:这款机器人目前能完成哪些任务,你可以怎么指挥它、用它,比如用自然语言说“请帮我收拾一下床”,而背后对应的是一个明确可执行的 ODD。语言可以很自由,但任务执行是确定的。

而且一旦你能覆盖的 ODD 越来越多,机器人在家庭场景中的实际价值就会越来越大。重要的是,这种“能力厚度”的提升并不一定会显著增加硬件成本,因为硬件是相对确定的。

所以我们的判断是:在未来三年内,家用场景中会有一大批 ODD 是可以被切实解决的,具备可行性的;但同时,也确实存在不少在当前阶段难以落地的场景

我们不主张用“行”或“不行”这种简单粗暴的方式来判断家庭机器人,而是要真正深入进去,把任务拆解,把场景打标签,找到那条技术与可交付之间的现实边界。

高工人形机器人:您刚才提到“左下角”场景的可行性,那我能不能理解为,您之所以选择今年入局,是因为判断这个区域已经足够大、可以做出一个真正的产品?

余轶南:这个判断,其实主要来自于我们对当前技术状态的理解和判断。

如果你纵观全球在具身智能领域的相关进展——无论是下肢控制、上肢操作,还是大模型的应用——你会发现,其实在现有技术框架下,基本的操作能力已经达到了一个相对不错的水平。

而在这个水平之上,一些任务相对简单、且容错率高、失效成本低的场景,其实是可以落地的。

这也是我们认为“现在可以开始做产品”的原因。

高工人形机器人:如果照您的判断来看,会不会像工厂这样封闭、可控、且具备技术支持的环境,其实反而更适合具身智能的率先落地?

余轶南:我觉得这是一个很好的问题。这个问题的核心,其实取决于一家公司最初的愿景。

它并没有所谓的对错,关键在于:你的初心是什么?你选择的方向是什么?

就像我一开始提到的,我们对机器人的定位,是希望它成为人类的伙伴,而不是一个追求效率的工具。这是我们的选择。

当然,市场上也一定会有企业选择走向效率导向、工具属性更强的机器人方向,这是毋庸置疑的。

这两条路线在未来可能会同时存在,也许十年后我们能清楚地看到:各自的市场规模是多少,头部企业发展到什么阶段,甚至能精确量化。但在今天,这种计算其实意义并不大。

所以,这最终是一个关于企业愿景和初心的选择,我们只是坚定地走在我们选择的这条路径上。

具身智能现在是快鱼吃慢鱼

高工人形机器人:最近不少智驾圈的人开始跨界进入具身智能赛道,我注意到您在表达上也带有很多汽车行业的术语。很多人会把现在的具身智能类比成智能驾驶,您怎么看?

余轶南:首先,我认为这两个赛道确实存在一些相似之处,甚至有不少技术和体系是有重叠的

我可以举几个例子——比如说激光雷达,它今天最大的应用市场是在汽车行业,整个激光雷达技术的发展,其实是伴随着智能驾驶的兴起而推进的。如果没有智能驾驶,就不会有今天这样成本可控、规模化量产的激光雷达。

再比如动力电池,以及端侧的计算芯片,这些核心硬件的演进也都和车载系统的发展紧密相关。而你看今天的机器人,这些部件恰恰也都是它最关键的组成部分。

除此之外,一个智能机器人要具备完整能力,它一定需要实现环境理解、感知识别、任务解析和规划执行。这个“规划”不仅包括路径规划,还包括肢体动作的规划、手部操作的精度控制等等。这些能力在技术栈上,与智能驾驶有很高的相似度。

当然,机器人所面对的环境复杂度和动作灵活性——我们常说的“diversity”(场景多样性)——是远远高于汽车的。汽车的运行场景相对可预测,但机器人的肢体和场景都更自由、更复杂。

所以总结来说:有很多可以参考和借鉴的地方,但也不能照搬照抄,毕竟两者在底层逻辑上仍有明显区别。

高工人形机器人:在之前的采访中,您曾提到对人形机器人并不是特别看好。我想进一步确认一下,您是不看好当前阶段的人形机器人技术尚未成熟,还是从根本上认为人形机器人并不是一个现实可行的产品路径?另外,维他动力未来会完全拒斥人形这条路线吗?

余轶南:当然不会完全排除人形机器人(笑)。

我们自己定位为做“个人和家庭的机器人”,这个定位本身并不限定具体形态。我的一个基本认知是:机器人未来一定不会只有一种标准形态。

就像今天的汽车,有重卡、皮卡、SUV、轿车、小车,甚至还有摩托车、三轮车……虽然看上去都是“四个轮子加一个壳”,但形态差异很大。这种形态的多样性其实是由不同场景、需求、效率所决定的。

我认为未来机器人也一样——在底层的技术架构上可能会逐步收敛,但在产品形态上一定会有多种主流形态并存,不可能只有某一种“唯一正解”的样子。

这是我们的第一个判断。

另一个我们非常关注的问题是:人形机器人真正适合的切入场景,到底在哪里?

如果我们只是为了做技术,那这件事就不用多讨论——我们可以不断往“更快、更强、更炫”的方向去追求技术突破,这没有问题。

但如果我们讨论的是“产品化”或者“产业化”,那就必须是一步一步来的问题。你得回答清楚,第一步做什么,下一步做什么?人形机器人到底从哪个场景切入才是最优路径?

我认为,这个问题,行业目前并没有给出清晰的答案。我们当然可以预期未来某些机器人形态在短期内,比如三年之内,可能会实现几万甚至几十万台的出货,并真正为用户和社会创造价值。但在“人形机器人”这个方向上,我们还没有看到足够明确的信号或验证。

在我看来,今天的人形机器人大多仍处于“实验阶段”——十台、百台、千台的出货规模,在整个产业链里仍然只是小规模测试,还远远没有到成熟落地的阶段。

所以我们的判断是:现在还不是入场做“人形机器人产品”的时候。什么时候入?要么是我们自己真正想清楚了它的路径,要么是行业里有其他玩家已经跑出来、成功验证了可行性——那时才是更合适的入场点。

当然,这说的是产品层面。在技术层面,我们并没有停下来。我们在 Vita Lab 内部确实有团队在持续研发与人形机器人相关的核心技术。

高工人形机器人:在家庭场景的具身智能赛道上,您觉得科技巨头有优势,还是初创公司机会更大?维他动力的优势在哪里?

余轶南:这个问题,其实十年前也有人问过,当时是在自动驾驶与新能源汽车兴起的时候。

大家都在讨论:到底是巨头更有机会,还是新势力更有机会?

而新势力中也分两类:一类是传统车厂出来创业的团队,另一类是从其他领域,尤其是互联网行业跨界过来做智能汽车的公司。

今天,十年过去了,我们其实已经可以看到一些阶段性的结论

  • 有一部分传统巨头在新能源车领域做得非常好,甚至实现了对新势力的反超; 

  • 而在新势力当中,表现最好的几家公司,反而是来自互联网行业的。

所以,到底是不是“巨头”并不是决定结果的核心。

真正决定成败的,是你的战略、你的组织能力,以及最重要的——执行效率。

在这样的产业变革中,竞争的关键可能已经不再是“大鱼吃小鱼”,而是——“快鱼吃慢鱼”

工人形机器人:说实话,我自己对具身智能赛道现在的状态还有点保留意见。回顾智能手机、电动车、甚至人工智能的发展,几乎都是在例如iPhone这种标志性产品落地之后,创业公司才大规模进入赛道,因为那时候大家才知道“这条路能走得通”。

而在具身智能领域,目前好像还没有出现真正意义上的“拐点产品”。那您为什么会选择在标志性产品出现之前就入局?

余轶南:你刚才提到 iPhone,坦率地说,我认为今天这个行业还没有到那个“iPhone 时刻”,而且还非常遥远。

不过现在有机会去做什么?可以去做 iPod Touch、做 BlackBerry,甚至是 PDA——这些都是在 iPhone 之前,推动产业演进的重要产品形态。

所以虽然今天具身智能还没到 ChatGPT 或 iPhone 那样的节点,但这正是我们认为有机会去提前构建产品、塑造方向的阶段。

我们是想成为那个给世界带来标志性产品的公司,未来能打造“机器人领域的 iPhone”,而不是等那个产品出现之后才入局。

e6668a8c41291e78b5777119ae5ac45.jpg

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×