阅读时间大约10分钟（3886字）

3小时前 Ted谈机器人十年：一个DeepMind研究者的信念修正历程

来源：机器人产业应用

机器人的ChatGPT时刻，大概率不会首先发生在论文里

作者：李文泉编辑：晋芳博 出品：机器人产业应用

机器人学习过去十年的变化，很容易被写成一条技术时间线：从 QT-Opt 到 RT-1、SayCan、RT-2，再到 Gemini Robotics，但现实不止于此。在最近的一次访谈中（来自 RoboPapers），Ted Xiao 以亲历者视角，系统回顾了过去近十年来具身智能领域的变革，复盘了每个关键决策背后的思考过程。

Ted 是 Google DeepMind 机器人团队的前高级研究科学家兼技术负责人，深度参与了 RT-1、RT-2、SayCan 等具身智能基础模型项目。他博士毕业于佐治亚理工学院，研究方向从计算机图形学转入机器人，至今已在机器人领域深耕近十年。目前，Ted 已离开 Google，加入亚马逊创始人杰夫·贝佐斯创立的 AI 初创公司 Project Prometheus。

本文整理自系列访谈节目 “RoboPapers” 对 Ted 的专访，完整视频可在 YouTube 观看（链接：youtube.com/watch?v=etPqBphTgmE）

RL 曾经是答案，后来变成了问题的一部分

2015年至2016年，DQN 和 AlphaGo 的成功带来一种强烈想象：既然系统能从经验中学习，机器人不也可以用类似方法解决吗？

Ted 回忆，当时 Google Brain 机器人团队不到20人。他们搭建了 Robot Farm，让多台 KUKA 机械臂在真实世界24小时抓取物体，持续收集经验并训练策略。方向背后的信念很明确：只要机器人不断试错、不断获得反馈，就能像 AlphaGo 一样慢慢学会复杂任务。

QT-Opt是这一阶段的代表，它是2018年提出的分布式强化学习算法，利用海量真实机械臂抓取数据证明了端到端控制在实际机器人中的可行性，是后续机器人基础模型的重要先驱。它试图把强化学习扩展到真实机器人，处理图像、连续动作、高维状态和物理交互。团队不只做算法，还要搭建完整系统：控制栈、数据采集、评估、硬件维护、训练框架，全部一起运转。

问题也正是在这里暴露出来。RL 确实能让性能曲线往上走，但代价越来越大，系统越来越难维护。策略检查点会过时，仿真与真实数据如何混合、如何复现，都变成沉重负担。强化学习从一个“让机器人自己学会一切”的愿景，慢慢变成了一个工程上持续膨胀的复杂系统。

Ted 最重要的反思之一就在这里。RL 证明了端到端学习在真实世界中可以发生，但也让团队意识到，机器人问题不是单靠更强算法就能解决的。早期机器人学习高估了 RL，是因为把游戏世界里的成功想象直接投射到了现实世界，而现实远比游戏昂贵、不稳定、不可重复。

Google 最关键的一年半，没有论文

如果说第一章讲的是 RL 信仰的松动，那么第二章才是 Google 机器人路线真正的转折。

Ted 提到，团队曾经有一年半时间几乎没有围绕那批数据发表论文，而是把大量精力投入到一件听起来不够“前沿”的事情上：收集高质量专家示范数据。近十台机器人、十位操作员，围绕数百种任务持续采集离线数据。Ted 把这称为“slow down to speed up”。

今天回头看，这个选择似乎很好理解。大模型时代已经反复证明，数据规模和质量往往决定模型上限。但在当时，Behavior Cloning （行为克隆，模仿学习的一种经典方法，后文简写为BC）并不是一个显然正确的方向。社会共识几乎是：行为克隆只适合作为启动策略，真正要把性能推到90%以上，还得靠 RL。因为 BC 会遇到分布偏移和误差累积，上限有限。

但后来的结果改写了这个判断。在重构训练系统、修复基础设施问题后，BC 不再卡在60%、70%，而是达到了90%、95%，并随着更多真实机器人数据增加继续提升。

这不是一次普通的性能改进。它意味着一个基本假设被修正：过去他们认为 BC 只是热身，RL 才是正赛；后来发现，只要数据质量足够高、训练系统足够稳定，BC 本身就可能成为正赛。这也是后来 RT-1（机器人Transformer第一代）、RT-2 （机器人Transformer第二代）等路线能够成立的前提。

机器人学习从“让机器人自己探索世界”，转向“让机器人学习人类已经完成过的经验”。这一章的关键不是“BC 赢了 RL”，而是领域第一次认真意识到：过去可能低估了高质量真实世界数据的力量。

RT-2 证明的不是机器人更强了，而是机器人不必从零开始

当 Foundation Model （基础模型）在语言和视觉领域展现出泛化能力后，一个新问题浮现：既然互联网训练出来的大模型已经学到了大量关于世界的知识，机器人为什么不能直接继承这些能力？

RT-1、SayCan （谷歌在2022年发布的机器人系统）和 RT-2 可以被看作对这个问题的不同回答。RT-1 把机器人控制问题转化为 Token Prediction（词元预测），图像、语言和动作都被纳入 Transformer 框架。SayCan 则做了一层“连接”：语言模型负责提出计划，机器人价值函数负责判断哪些动作在当前场景中真正可行。

真正的观念变化出现在 RT-2。它不再只把语言模型当作外部规划器，也不只是借用视觉表示，而是把 VLM 直接改造成 Vision-Language-Action 模型，让大模型成为机器人策略的一部分。

Ted 提到，如果回头看，VLA 这个想法本可以更早出现。为什么没有？因为机器人领域长期有一种惯性：什么都想自己做。自己设计视觉编码器、动作表示、策略网络、训练系统，习惯于从零搭建一个“专门为机器人设计”的系统。

这种做法有它的道理，但 RT-2 代表的是另一种信念：机器人不一定要重新发明 AI。如果大模型已经学到了语言、视觉、物体关系、空间概念和一部分物理常识，就没有必要在有限的机器人数据里重新学习所有这些东西。它应该尽可能继承已有能力，然后只在动作空间上做最小必要改造。

RT-2 真正重要的地方，不是证明机器人模型可以变大，而是证明机器人研究开始接受一个事实：很多能力不必在机器人数据里从零学一遍。机器人过去低估了 Foundation Model，是因为它高估了自身问题的特殊性。

Scaling 正在改写机器人研究的胜负手

Ted 把机器人学习的发展大致分为三个阶段：Existence Proof，证明端到端学习可以在真实世界工作；Foundation Models，证明大模型可以被引入机器人；第三个阶段，就是今天正在发生的 Scaling。

Scaling 意味着胜负手正在变化。过去大家更关心下一个算法是什么，今天更关键的问题变成：谁能获得更多高质量数据，谁能维护更多机器人，谁能完成更大规模的采集、训练和评估闭环，谁能把机器人从实验室推向更复杂的真实场景。

RT-1 时代，87000条机器人轨迹已经是一个很大的数字。但今天行业讨论的已经是数十万小时、上百万小时的数据，是双臂机器人、人形机器人、跨本体迁移和更复杂的操作任务。

Ted 提到 Generalist、Physical Intelligence、Skild 等公司时，关注的不是它们用了什么模型，而是这些团队正在把硬件、数据、模型和运营系统一起扩展。这与大模型行业的经验相似：Transformer 当然重要，但 GPT 真正让行业发生变化，靠的是数据、算力、训练规模和产品形态共同到达的某个临界点。

机器人也可能正在走向类似阶段。很多突破未必来自某个全新算法，而是来自把已经有效的方法放大十倍、百倍之后，系统涌现出的新能力。这不是说算法创新不重要，而是说机器人领域过去可能高估了单点算法创新，低估了 Scaling 带来的系统性变化。在 Scaling 时代，算法只是系统的一部分，数据采集、硬件设计、远程操作、评估体系、产品场景和工程组织能力，都开始变得同样重要。机器人研究不再只是论文之间的竞赛，也正在变成长期系统能力的竞赛。

学术界仍然重要，但不再独占能力前沿

Ted 对学术界角色变化的讨论同样值得注意。他的判断并不是“学术界不重要了”，相反，学术界仍然提供新想法、理论分析、评测框架、开放数据集，也继续训练下一代研究者。

但问题在于，今天机器人能力的提升，越来越依赖一些大学实验室很难长期承担的资源。硬件规模、持续数据采集、工程团队、算力、部署场景和长期运营能力，正在成为能力突破的重要组成部分。这意味着最前沿的能力验证越来越多发生在产业界。

Google DeepMind、Physical Intelligence、Figure 等机构的优势，不只是它们有更强的研究者，也在于它们有能力持续投入昂贵而复杂的系统工程。Ted 提到，如果学术界要在能力竞赛中继续发挥作用，跨机构协作、开放数据、开放评测会变得更加重要。否则单个实验室很难独立承担今天机器人 Scaling 所需的资源门槛。

这是机器人领域正在发生的结构性变化。过去大学实验室可以提出一个方法，然后直接把机器人能力推向前沿。今天学术界更像是提供思想、工具和分析框架的地方，而真正把能力推到极限的地方，越来越可能是大厂实验室和创业公司。

这不是机器人领域独有的问题，大模型已经经历过一次类似转变。机器人只是把这个变化变得更重、更贵、更慢，因为它还多了一层现实世界硬件。这一章的核心判断是：我们高估了学术界在能力前沿中的直接作用，却低估了产业界在 Scaling 时代的决定性地位。

Ted 押注的未来，是视频数据和第一视角数据

Ted 真正押注的方向并不是简单的“人形机器人”，而是两类数据路线：Video Action Models 和 Egocentric Human Data。

前者是一种视频动作模型——可以理解为面向机器人控制的世界模型，它不只要预测视频下一帧，更要理解动作如何改变世界状态，从而推断下一步该做什么。后者是第一视角人类数据，通过头戴摄像机、AR 眼镜等设备记录人类在真实世界中如何完成任务，再把这些行为经验转移给机器人。

这两条路线背后的问题是同一个：如何让机器人获得互联网规模的人类行为经验？过去机器人数据最大的瓶颈是每一条轨迹都要机器人亲自执行，这使得数据采集昂贵、缓慢，且严重依赖特定硬件和场景。但人类每天都在真实世界中完成大量操作，这些动作背后包含了大量关于物体、空间、接触、因果和任务结构的信息。如果机器人能从视频和第一视角数据中学习，数据来源就不再局限于机器人实验室，而可能扩展到整个现实世界。

Ted 提到，类似人类数据、第一视角数据的想法并不是今天才出现，很多团队多年前就尝试过，只是当时数据质量、规模、硬件和模型能力都还不够。换句话说，这不是一个全新的想法，而是一个可能终于到了正确时间的旧想法。

这也呼应了整篇文章的主线。Ted 最看好的未来，仍然不是某个单点算法，也不是某种机器人外形，而是更大规模、更真实、更接近人类经验的数据。我们可能仍然低估了视频数据和第一视角数据的价值。

总结：机器人 ChatGPT 时刻，不会首先发生在论文里

访谈最后被问到机器人什么时候迎来自己的 ChatGPT 时刻，Ted 的回答很克制。人们经常把 ChatGPT 时刻误解成单个技术突破，但 ChatGPT 之所以成为 ChatGPT，不只是因为 Transformer 或 GPT-3，也不只是因为某篇论文。真正的 ChatGPT 时刻，是一个足够好的技术被包装进一个足够简单、足够有用的产品形态里，然后普通人开始每天使用它。它是技术时刻，也是产品时刻，但最终被记住的是产品时刻。

机器人也是一样。机器人 ChatGPT 时刻不会因为某个机器人完成后空翻、叠了一次衣服或演示了一次做饭而到来。真正的时刻，是普通人开始每天使用机器人，并且觉得它真的有用。

这也是整场访谈最值得咀嚼的地方。它不是讲某个模型如何胜出，而是讲一个领域如何一次次修正自己的信念：从高估 RL，到重新认识数据；从低估 Foundation Model，到接受 Scaling 正在改写研究范式；从把学术界视为能力前沿的中心，到看见产业系统、数据闭环和真实部署的重要性；再到重新审视视频数据和第一视角数据这些旧想法的新价值。

过去十年的机器人学习，表面上是论文、模型和系统的演进，更深一层看，则是行业不断改变自己基本假设的过程。如果机器人真的会迎来自己的 ChatGPT 时刻，它大概率不会首先发生在论文里，而会发生在某个普通人第一次觉得：这个机器人，我明天还想继续用。