阅读时间大约10分钟以上(10005字)
撰文:Marilyn 出品:具身纪元
这是Waymo 资深工程师Vincent 和UC Berkeley的教授 Ken Goldberg的一次对谈。
最近因为一直在关注数据基础设施,但这里面涉及很多工程细节,纯粹去看论文的话,文章非常难产。Ken 的这场访谈给了我很多灵感,特此搬运过来
Ken Goldberg 是一位享誉国际的机器人学家、艺术家和教育家。他目前担任加州大学伯克利分校(UC Berkeley)工业工程与运筹学系主任,同时在电子工程与计算机科学系 (EECS)、艺术实践系和信息学院兼职。他还是加州大学旧金山分校 (UCSF) 医学院放射肿瘤系的教授。他也是伯克利 AI 研究中心 (BAIR) 执行委员会的成员。
他领导着 AUTOLab 实验室,专注于 AI 机器人学习、抓取、手术机器人和自动化算法。他发表了超过 400 篇论文,拥有 10 项专利,是机器人领域的权威专家。
同时,他是一位跨界艺术家,曾在 1994 年开发了全球首个连接到互联网的机器人(Telegarden)。他的艺术作品曾在威尼斯双年展、惠特尼双年展和蓬皮杜中心等世界顶级展馆展出。
他是 Ambi Robotics 和 Jacobi Robotics 的联合创始人兼首席科学家。
对谈总结如下:
核心观点:回归“老式工程学”(Good Old-fashioned Engineering)
不盲信“端到端”: 虽然现在的趋势是靠大规模数据和 AI 模型解决一切,但 Ken 认为传统的工程工具(如 PID 控制、SLAM、卡尔曼滤波)依然不可替代。“引导程序”理论: 老式工程学的作用是“先让东西转起来”。你可以先用传统方法构建一个能用的系统,让它进入现实世界产生价值,然后利用它收集的数据来喂养 AI,最终再逐步用 AI 替换其中的模块。模块化优势: 传统方法让系统更透明、可测试、易更换,而不是像一个无法解释的“黑盒”。
仿真与现实的巨大鸿沟(Sim-to-Real)
为什么“抓取”比“走路”难: 避障和足式行走的模拟相对容易,因为它们对物理力的精度要求不算极端。但“机器人操纵(Manipulation)”涉及手指和物体材质的微小形变、滑移和力矩。视觉的欺骗性: 图形学模拟器可以让画面看起来非常真实,但在真实的物理受力上可能差了两个数量级。新路径“渲染即仿真”: 既然精确模拟物理力那么难,Ken 提出可以只模拟“视觉”。通过 3D 高斯泼溅技术,从一次真实演示中生成上千种视觉上的变化来训练机器人,这在很多任务中比复杂的物理仿真更有效。
数据质量:寻找任务的“瓶颈时刻”
反对“数据垃圾场”: 简单地把所有机器人数据扔进大锅(如 OXE 项目)效果有限,因为有效数据可能只占 10%,其余全是充满了遮挡和误标的废料。精准狙击: 机器人大部分时间在空旷空间移动,这些数据没意义。真正该学习的是“接触发生”的瞬间(如插销入孔、捡起布料边缘)。VLM(视觉语言模型)的新工作: 现在 VLM 的一大用途是当“数据管理员”。你可以对它说“帮我找出光照好、没遮挡、正在用刷子的视频”,它能从海量废料中精准洗出高质量训练素材。
机器人基础设施:从云端到“雾端”
“雾机器人(Fog Robotics)”: 这是一个平衡艺术。机器人身体可以服役 10 年,但电脑硬件 2 年就过时。因此,应该把计算压力从机器人身上移走,分布在边缘设备、5G 基站和云端之间,实现负载均衡。数据存储瓶颈: 训练需要随机访问,运行需要时间序列,这两者在系统架构上是冲突的。 Ken 团队通过类似 Docker 的容器化技术改进了数据索引,这虽然不“性感”,却是行业进步的基石。
视觉作为“全能媒介”
视觉即触觉: 在没有触觉传感器的情况下,通过高频监测局部像素的微小位移,视觉可以完美充当触觉反馈的代理。3D 视觉的复兴: 计算机视觉正从“2D 像素标注”回归到“3D 状态估计”。通过高斯泼溅技术,我们现在可以轻松构建 4D 动态场景,模拟各种现实中难以遇见的极端情况(反事实模拟)。
弥合数据鸿沟:老式工程学的“引导程序”作用
Vincent Vanhoucke (Voiceover):AI 的下一步是什么?我是 Vincent Vanhoucke,Waymo 的杰出工程师。在这个新系列中,我们将深入探讨 AI 的进展,以及像 Waymo 这样的自动驾驶汽车如何与其交汇。加入我们的旅程,探索所有有趣的终点。今天我见到了老朋友 Ken,他在加州大学伯克利分校花了 30 年研究机器人与社会的交汇点。他探索过艺术、电影以及自动化的工业应用,让我们看看这个世界有什么新动态。
Ken Goldberg:Vincent,最近怎么样,老兄?
Vincent Vanhoucke:见到你真好,准备好去喝杯咖啡了吗?
Ken Goldberg:当然。
Vincent Vanhoucke:好的。你是伯克利机器人和 AI 领域的教授,我听你多次说过:“是的,我认为规模和数据是机器人的未来,但我们面临着巨大的数据问题,存在数据鸿沟,没有足够的数据来支持机器人,而解决之道在于好用的老式工程学(Good Old-fashioned Engineering)。”告诉我,你是如何从现状推导到这一结论的?
Ken Goldberg:好的,我想非常明确地表示,我不反对新事物,不反对大模型和数据驱动模型。但我同时也强烈感觉到,“老式工程学”扮演着非常重要的角色,即卡尔曼滤波器、PID 控制器、SLAM 等我们在过去 400 年里开发的伟大工具。我的一些学生觉得这些东西已经陈旧过时,必须超越它们。我甚至听人说,如果你使用这些东西就是在“作弊”,因为他们想要纯粹的系统,觉得任何非纯粹的方法都无法泛化。我对此表示反对,作为一名关注“如何让东西转起来”的工程师,你应该更加灵活,思考 AI 和深度学习在哪些方面有用,同时也要利用我们非常熟悉的工具,如逆运动学和各种计算机视觉算法。这种做法的优势在于它提供了模块化,你可以独立测试、组合或更换这些模块。这也是通往进步的路径,并且它与新思想是兼容的——这是一种“引导(Bootstrap)”方式:先利用组合元素让系统运转起来,然后开始收集数据,随着时间推移,当数据足够多时,你或许可以用端到端模型替换一切。我认为 Waymo 就是这方面的典型案例,你们让它在极高水平上运行,并持续收集数据。

图注:机器人的辩证法:工程和AI的妥协
Vincent Vanhoucke:你是一名教育者,你如何教授这些内容?如何让人们爱上“老式工程学”?
Ken Goldberg:这很有趣,因为这正是我们目前仍在教授的内容,从高中学习的数学和微积分开始。如何激发学生的动力一直是个问题,通常在多年后你才会意识到:“哦,原来这东西可以用在这里。” 好的老师会在教学时告诉你这些应用故事。如果你想象一个未来,大家只学习深度学习和大模型,那会变得没那么有成就感,因为当你遇到问题时,你只能说“我们需要更多数据”,但需要多少?不知道,只能再多试一点。这种“凭感觉”的状态像是在荒野西部。从学生的角度来看,你希望看到增量式的工具、看到如何组合它们。虽然现在学术界存在极化现象,但很多教授仍对这些传统工具持积极态度。
Vincent Vanhoucke:这是否涉及到一种文化转变?很多人是从机器学习或计算机视觉领域进入机器人行业的,他们没有在传统领域成长,因此对从未接触过的东西缺乏认同感。
Ken Goldberg:你说得对,这确实很耐人寻味。这也存在于那些来自计算机视觉、图形学或仿真领域、却从未真正碰过实体机器人的人身上。
操纵任务之困:为什么 Sim-to-Real 的鸿沟如此巨大
Ken Goldberg:观察实体机器人非常重要。尤其是对于“机器人操纵(Manipulation)”来说,它在直觉上看起来很简单——毕竟孩子甚至乌鸦都能做到,但实际操作却极难。人们在模拟器里看这些仿真过程觉得很合理,但它们无法迁移到现实(Sim-to-Real 问题)。有趣的是,这个问题在飞行机器人、行走机器人或特技翻转中并不严重,但在操纵任务中却是一个巨大的鸿沟。我一直好奇你对此怎么看。
Vincent Vanhoucke:我认为如果模拟主要涉及自由空间且没有复杂的接触约束,效果就会很好。行走机器人只要双脚踏地,不打滑且接触良好,就是一个很好的近似。在自动驾驶中,虽然轮胎磨损和牵引力随时间变化,接触动态更复杂,但我们仍能通过数万英里的驾驶仿真进行一致性验证。
Ken Goldberg:没错,如果目标只是避障,那模拟器非常管用。但在行走任务中,有人告诉我具体力的大小并不重要,重要的是运动的方向或力的正负符号,算法对此具有鲁棒性。这让我很惊讶,因为我不是研究行走的。但在操纵任务中,这些数值的精确度至关重要。

图注:仿真与现实的鸿沟
Vincent Vanhoucke:我敢打赌,一旦我们希望将足式机器人用于实际生活,力的精确度就会变得重要。比如现在你看到一个机器人只是“咚咚,咚咚”地重重走路,它能站起来,这没问题。但如果你把它放在一个特定的环境中,你对地面施加的实际力量将转化为机器人的噪音水平,这就会变得很有趣了。
Ken Goldberg:是的,这很有意思。我还没听过有人尝试做类似“忍者机器人”的东西,这一定很酷,非常安静。我们以前遇到过很多问题,机器人就在我们楼上一层“咚咚”地走来走去,吵得要命。从来没人提到过这一点,我以前也没想过。你知道,这很耐人寻味,因为我看到了最新的宇树(Unitree)机器人,人们踢它,它飞出去后又像奇迹一样跳回来,这确实很惊人。
Vincent Vanhoucke:我很期待看到那样的场景。
Ken Goldberg:但在那种情况下,虽然涉及很多接触,Sim-to-Real(仿真到现实)似乎在那奏效了。但我认为对于操纵任务(Manipulation)来说,至关重要的是“形变(Deformations)”——无论是手指尖的形变,还是物体材质的形变。想要把这一点做得恰到好处是极其困难的。你可以把仿真做得很好看,视觉上很容易骗过眼睛,但要获得真实的力、力矩、形变和滑移,是非常困难的。
Ken Goldberg:顺便提一下,我曾和一位为建筑师和土木工程师做有限元分析(FEM)仿真的人交流,他们能把精度做到小数点后四位,必须非常精确,所以他们的仿真与现实的差距非常小。但他提到有一篇论文,某个结构工程师用一系列新的仿真模型去跑这类问题,结果误差竟然达到了两个数量级,极其不准确。所以现状是:一方面我们有存在已久的、针对结构静态问题的高精度模型;另一方面我们有这些非常擅长“让画面好看”的图形学模拟器,但两者之间存在着巨大的鸿沟。
Vincent Vanhoucke:看到技术如何演进确实很有趣。本质上,我们今天正处于一个 AI 开始试图介入仿真领域的时代。AI 已经在物理系统仿真(如蛋白质折叠、天气预报等)中取得了巨大突破。现在,我们看到人们对用于机器人的“世界模型(World Models)”产生了浓厚兴趣,本质上就是“学习出来的仿真”。你对此持什么立场?你认为这是我们的未来吗?
Ken Goldberg:我认为这确实非常有前景。显然,最近在生物学、气象学和等离子体物理学方面已经有了惊人的结果。通过精心的实验,你可以开始缩小“现实到仿真(Real-to-Sim)”的差距。但我仍然担心,除非我们能找到方法对这些物理环境进行仪器化(Instrument)并仔细研究物理环境中到底发生了什么,否则很难把这件事做对。令人惊讶的是,竟然很少有人在做这件事。比如 Alberto Rodriguez 几年前做过,他非常细致地观察“推(Pushing)”这个动作,然后将仿真结果与实际对比。
Vincent Vanhoucke:是的,试图通过物理力测量来直接缩小 Sim-to-Real 的差距。
Ken Goldberg:没错。我认为这非常有希望,可能会带来某种突破。一旦你掌握了这一点,操纵任务的大门才可能真正打开。
基础设施的力量:数据管理为何是“冷门”的突破口
Vincent Vanhoucke:换个话题。你在机器人界非常独特,你非常关注基础设施研究。你一直在做云机器人(Cloud Robotics)、雾机器人(Fog Robotics),也许我们稍后可以聊聊。你最近刚凭借一篇关于“数据集管理”的论文获得了 ICRA 最佳论文奖。我想这让很多人感到惊讶,因为通常是那些“闪亮炫酷”的东西获奖,而你却在做机器人数据集管理。你认为机器人的基础设施领域会有很多突破吗?尤其是在学术界。
Ken Goldberg:确实如此。我认为这在工业界和学术界都会发生。思考基础设施是非常有趣的,如果你思考系统工程(Systems Engineering),伯克利有一个很大的系统实验室,Databricks 就诞生于那里。那里有很多深入思考系统的人。
Ken Goldberg:顺便提一下,他们指出,即便像 ChatGPT 这样看似“端到端”的工具,底层其实也涉及大量的系统工程、数据库、协议和“老式工程学”。如果你仔细观察,这些正是支撑它们的基石。对于数据端来说,这非常有趣。我很想知道你对 Open X-Embodiment(OXE,跨具身开放数据集)项目的看法。那是一个迷人的实验,就像是“让我们把所有东西都扔进一个大锅里”。
Vincent Vanhoucke:你是指那个开放跨具身项目。
Ken Goldberg:是的。这其实违背了我的直觉——“真的吗?你要把所有东西都拿来,不管三七二十一,不给它加任何结构?”但它确实让每个人都参与了进来,这很令人兴奋。但正如你所知,我们最近在研究那个数据集,里面竟然有无人机(UAV)的数据!我们当时就想“这是什么鬼?”。实际上真正有用的操纵数据只是一小部分,也许只有 10% 是可用的。甚至在这 10% 里,很多质量也很差:存在遮挡、误标注、标定问题、光照问题。因为没有过滤器,大家只是把所有东西都扔进去。现在我们正试图过滤和清洗它。

图注:数据基础设施,从”大“数据到“好”数据
Ken Goldberg:此外,当时大家也没怎么关注“如何以紧凑的方式表示这些数据”。我们发现使用传统文件系统的方法并不理想。我们发现可以做得更好,比如为每个轨迹、每个演示使用类似 Docker 的容器,这样你可以非常干净地进行索引,找到你需要的帧,并进行时间对齐。一堆这类的小细节,虽然听起来可能不是最性感的,对吧?
Vincent Vanhoucke:迷人的是,我经常面临同样的问题:一方面你想对数据进行随机访问(Random Access)以便训练,另一方面你又想处理时间序列(Time Series),因为数据在时间上是相关的。这两者通常是完全对立的,如何兼顾两者确实需要大量的思考。
Ken Goldberg:没错。这是一个非常核心的基础设施问题,而且目前在其他工程领域似乎还没有很好的现成解决方案或代理方案。所以我认为你们所做的工作非常赞,完全配得上那份认可。
视觉语言模型(VLM):机器人数据的“超级筛选器”
Vincent Vanhoucke:迷人的是,我经常面临同样的问题:一方面你想对数据进行随机访问以便训练,另一方面你又想处理时间序列,因为数据在时间上是相关的。这两者通常是完全对立的,如何兼顾两者确实需要大量的思考。
Ken Goldberg:没错。这是一个非常核心的基础设施问题,而且目前在其他工程领域似乎还没有很好的现成解决方案。所以我认为你们所做的工作非常赞,完全配得上那份认可。
Vincent Vanhoucke:噢,谢谢,非常感谢。
Ken Goldberg:事实上,我们最近有一篇新论文,在那项研究中,我们大量使用了VLM(视觉语言模型)来探测数据。首先我们发现,对于数据集里的每一个轨迹、每一个演示,你都可以生成大量的VQA(视觉问答)。你可以把这些作为 VLM 的基准测试,你可以从各种视角提问发生了什么。因为你有元数据,所以你其实知道标准答案,从而可以用它来检查 VLM 的表现。我的学生从 Droid 数据集的一个子集中生成了大约 60 万个 VQA。这还只是冰山一角。
Ken Goldberg:但我们现在更感兴趣的是利用 VLM 来清理和过滤数据。举个例子,你可能会说:“我想找一段没有遮挡、短时域、光照良好且遮挡有限的轨迹,其中有人正在使用刷子。” 这一切信息都不在元数据里,但你可以通过 VLM 将其提取出来。我认为这种能帮助我们挖掘和处理数据的工具将非常有价值。这虽然属于基础设施,但它利用了 VLM 这种强大的工具。我知道 Gemini Robotics 也在重点关注这一点——其实你不需要更多的数据,你已经有了现成的数据,关键是如何利用好大模型这个坚实的骨干来处理它们。
Vincent Vanhoucke:我很喜欢 VLM 弥合了实验室里那些可能并不多样化的“定制数据”与来自外部世界的“常识知识”之间的鸿沟,它能帮助你获得信息,而不需要重新学习这些东西。
Ken Goldberg:没错。当你看着一张桌子说:“清理这张桌子,把东西分类放入这些箱子里”,它能以非常合理的方式理解并执行。但我目前对 VLM 的一个不满是,它们通常不太擅长处理几何信息或空间信息。它们在语义上很强,能告诉你图像里有什么,但对于机器人应用来说,拥有精确的几何信息至关重要。
Ken Goldberg:我同意。但我认为这是我们整个社区的责任。我们可以通过挖掘更多的 VQA 例子和训练示例来改善这一点。我想 Gemini Robotics 也在这么做,因为他们发布的模型(如 RT-2 等)在空间意识上正变得越来越好。而且你们拥有自动驾驶汽车的数据,在真实世界环境里,将几何信息与场景语义结合在一起,这是非常有价值的训练数据。
“雾机器人”(Fog Robotics):超越云端的负载均衡
Vincent Vanhoucke:所以你是说,缩小数据鸿沟既要靠“老式工程学”,也要靠进入真实世界获取大规模部署数据。
Ken Goldberg:两者都需要。你需要老式工程学作为“引导程序(Bootstrap)”带你进入现实世界。如果你完全不用老式工程学,我们今天甚至无法坐在这辆车里。你需要通过各种工程手段让产品达到正向的投资回报率(ROI),只有当人们愿意付钱时,数据飞轮才会真正转动起来。
Vincent Vanhoucke:我百分之百同意。老式工程学是通往现实世界的路径。你一直致力于机器人基础设施的许多方面,数据管理、云机器人、分布式集群,你还研究过“雾机器人”,告诉我什么是雾机器人(Fog Robotics)?这对我来说听起来有点模糊(Foggy)。
Ken Goldberg:“模糊”,好吧,这可以理解。我得承认我对这个词有点“退缩”,但它确实源于云端计算。有人创造了“雾计算”这个词,意思是你不仅仅是把所有东西都传回云端数据中心,而是思考从边缘处理、到 5G 基站的中间计算、再到远端数据中心的整个生态系统。你要在所有这些节点之间进行负载均衡。这就是“雾”——从边缘到云端的所有地带。
Ken Goldberg:虽然“雾机器人”听起来有点像科幻小说,带点调侃的意味,但我们使用了这个词,部分原因是我们开始讨论Fog ROS(机器人操作系统)。这个概念之所以站得住脚,是因为在很多情况下,把计算任务从机器人身上移走是有意义的,因为机器人可能要服役 10 年,但计算硬件每 2 年就过时了。

图注:雾机器人学
远程花园:互联网机器人的艺术起源
Vincent Vanhoucke:你知道这一切其实是从一个艺术项目开始的吗?
Ken Goldberg:是的,30 年前的一个艺术项目。我一直对艺术很感兴趣。我记得很久以前和我母亲的一次谈话,当时我在决定专业,我说也许我会主修艺术,她说:“好啊,等你拿到工程学位后你可以主修艺术。”这是一个非常好的建议。
Ken Goldberg:1994 年互联网刚出现时,我在南加州大学,我的学生跑进来大喊:“看这个!”我们立刻想参与其中。因为我一直在做艺术项目,我说:“让我们做一个能让大家兴奋的艺术项目,就叫它远程花园(Telegarden)。” 这是一个证明“人们如何通过简单的 HTML 界面从互联网控制机器人”的原型。我们是第一个将真实机器人连接到互联网的人。

图注:The Telegarden
Vincent Vanhoucke:跟我描述一下,人们是如何通过界面控制机器人的?
Ken Goldberg:当时已经有了著名的“咖啡壶摄像头”,但那是只读的。我们是第一个增加“动作按钮”的,你可以通过点击来移动机器人,可以给花园浇水。那是一个真实的花园,中心是一个工业机器人。你可以点击按钮喷水,也可以种下一颗种子——机器人会过来挖个洞,吸起一颗种子放进去,盖上洞,然后浇水。
Ken Goldberg:最神奇的是,原本由于刚播种什么都看不见,但人们会一遍又一遍地回来观察,直到种子发芽。这里诞生了早期的社交媒体社区。几百个人每天都回来,他们成了朋友,甚至在聊天室里托付:“下周我要出差,能帮我照看下我的植物吗?”甚至还有传闻说有人因此结婚了。当花园长得太茂盛需要清理时,我们会收到邮件求情:“求你留着我的那株植物,我可以付邮费把它寄给我。” 这是一个迷人的社会实验。
Vincent Vanhoucke:这听起来非常美好,但那是互联网,你遇到过“网络喷子”问题吗?
Ken Goldberg:噢,当然遇到过。最有趣的一次是,我们在项目启动一个月后的某个周一回到实验室,发现整个实验室都淹了!水漏到了隔壁实验室,烧坏了别人的工作站。我惹了大麻烦。
Ken Goldberg:我们查看日志发现,有些孩子设置了一个脚本循环,疯狂点击浇水按钮。我们通过邮件找到了那个人,问他:“你干了什么?”他回信了一句我永远忘不了的大写字母:“I AM NOT ROBOT. I AM NOT ROBOT.”我们并没有暗示他是机器人,但他确实按了 4000 次按钮。
Ken Goldberg:后来我们做了一个续集叫Alpha Garden。这次没有人类参与,完全由 AI 来照料花园。这又是我们的另一个艺术项目。
Vincent Vanhoucke:这个项目还在进行吗?
Ken Goldberg:它的故事是这样的:我们在 2020 年 2 月为纽约的一个艺术展准备了这个系统。结果开展一周后,由于疫情一切都关闭了。我们进不去温室,只能通过摄像头观察。很快,灌溉系统坏了,我们也无法去修理。我拥有这段影像:AI 无法替我们修理硬件,我们记录了花园在死亡边缘挣扎的定格动画。Ken Goldberg:迷人的是,你可能以为植物会直接变枯萎,但实际上,花园在极度缺水时突然开始疯狂开花,拼命长出嫩芽。它仿佛在临死前拼命吸引注意力。就像大自然在以某种方式 desperate 地向外伸展,那是一曲天鹅绝唱。
Ken Goldberg:是的。我们在 2020 年 2 月为纽约的一个艺术展准备了这个系统(Alpha Garden)。结果开展一周后,由于 3 月疫情爆发一切都关闭了,我们进不去温室。虽然有摄像头,但灌溉系统很快就坏了,我们没法进去修理。
Vincent Vanhoucke:看来 AI 也没法帮你修。
Ken Goldberg:AI 确实帮不了。但这产生了一个迷人的结果:如果你好奇,我可以发给你看,我们有一段定格动画,记录了花园在死亡边缘挣扎的过程。通常你会以为植物就是变黄枯萎,但事实并非如此。花园起初是绿色的,然后开始转变,你会突然看到它开始疯狂开花,拼命长出花朵和嫩芽。它就像在拼命吸引注意力,我以前从未见过这种景象。
Vincent Vanhoucke:噢,哇。
Ken Goldberg:那段动画非常惊人,正值大流行中期。我觉得这就像大自然在以某种方式拼命向外伸展,这在某种程度上是一曲天鹅绝唱。
Vincent Vanhoucke:没错,这让我想起了毕加索的《格尔尼卡》,那种向上伸展的感觉。你在机器人手术领域也做了很多工作,这是另一个涉及安全关键情境的领域。与自动驾驶类似,我们必须非常安全,因为与人类近距离接触,安全性至关重要。在自动驾驶中,我们可以很好地模拟世界和人类行为,但在机器人手术中,获得好的模拟似乎要困难得多。
增强灵巧性(Augmented Dexterity):手术机器人的新范式
Ken Goldberg:你完全正确。手术模拟目前非常原始。一切都是可变形的,充满了各种液体,而且是非常非匀质的材料。一旦开始流血,组织的刚度属性就会改变;甚至肿瘤边缘的刚度和密度也到处不同。这就是“触觉(Touch)”变得极其重要的地方。
Ken Goldberg:很有趣的是,外科医生学会了如何补偿。他们甚至没有真正的立体视觉(虽然有双目相机,但基线太小,深度感很弱)。他们在狭窄的空间里极快地操作,比如切除胆囊。直到最近,他们才有了触觉感知。那么以前是怎么做到的?人类非常擅长通过视觉观察来获取“触觉感”。这让我很兴奋,因为既然触觉传感器这么难做对,也许我们可以只用视觉。
Ken Goldberg:关于如何取得进展,我和 Intuitive 的 Gary Guthart 提出了一个新词叫“增强灵巧性(Augmented Dexterity)”。我们想找一个“监督自主(Supervised Autonomy)”的替代词,因为没人喜欢那个词。但“增强灵巧性”听起来不错,医生也很喜欢。
Ken Goldberg:我们可以从特定的子任务切入,比如缝合。虽然缝合很难,但如果你能帮医生理解在哪下针并做覆盖显示(Overlay),这会非常有帮助。我们不会在模拟(Sim)中尝试这些,而是直接进行物理实验,试图真正学习。这就是我不使用模拟,直接进行物理实验的一个好案例。
给年轻人的建议:去研究“数据瓶颈”
Vincent Vanhoucke:这种工作的规模化挑战是巨大的。你觉得“自主手术”在未来 10 年内会实现吗?
Ken Goldberg:有人在用 VLA(视觉-语言-动作模型)做手术打结,这很有趣。我们也复现了一些实验。但我们用“老式工程学”做出了更好的对比:别人用四个摄像头打了一个结,我们用一个摄像头打了六个双重结。我们想证明,利用老式工程技术,这项任务其实是可以完成的。
Vincent Vanhoucke:聊聊学术界吧。现在的学生可能会对进入学术界犹豫不决,考虑到资金情况和入学竞争。你会对考虑学术生涯的学生说什么?
Ken Goldberg:确实,联邦资金面临威胁。学生们也会考虑生活方式,看到年轻教授甚至资深教授周末和深夜都在工作。但我做这些是因为我热爱它,我等不及要打开邮件,这对我来说从未感觉像是在工作。
Vincent Vanhoucke:必须真的热爱。如果有博士生问你现在该研究什么,你怎么回答?
Ken Goldberg:我认为现在是“数据(Data)”。关键在于如何仔细地收集和过滤数据。我们目前处于“野性西部”阶段,大家随机尝试。但你必须非常战略性地去寻找任务中的“瓶颈(Bottleneck)”。
Ken Goldberg:不要把时间浪费在收集自由空间运动(Free space motion)的数据上,那毫无意义。你要在任务快要失败的那个瞬间、在即将发生接触的关键点收集数据。比如把主轴套进轴上的瞬间,或者抓起布料一角的瞬间。

图注:数据的注意力机制
Vincent Vanhoucke:没错,机器人大部分时间都在做无效的空转。我们该如何专注于真正值得学习的东西?
Ken Goldberg:这就是机器人世界的“注意力”。你应该关注那个发生有趣事情的微小窗口。人类通过眼球的快速扫视(Saccades)本能地做到这一点。虽然眼球运动看起来很混乱,但我们构建了精美的模型并专注于关键事物。
Ken Goldberg:提高数据质量极其重要。我一直认为那些数据收集公司很有价值,比如 Meta 收购 Scale 就很有趣。现在还有巨大的空间去清洗数据、放大其中最好的部分。
Ken Goldberg:我会告诉新学生:看这里,注意力的窗口在哪里?它在任务过程中是如何移动的?比如手术打结,我们要捡起缝合线的末端。因为只有单目视觉没有深度,很难。我们的做法是:不看接触点,而是盯着距离接触点一厘米的地方。因为在接触发生前那一块是不动的,一旦由于碰撞产生位移,我们就能瞬间捕捉到那一刻。虽然那个窗口只有 20x20 像素,但它非常有效。
Vincent Vanhoucke:计算机视觉一直在为触觉感知提供信息。从 Aloha 架构到 GelSight,“智能视觉”正成为通用触觉感知的媒介。
Ken Goldberg:确实如此。即使是行走的平衡,视觉也表现得很好。
Vincent Vanhoucke:回到车(Waymo)的案例。我们喜欢拥有冗余传感器和互补传感器。摄像头在夜间看不太清,但激光雷达(LiDAR)作为主动传感器可以发出光;而激光雷达缺乏足够的语义信息。这种互补性非常有用。
Ken Goldberg:很有趣,Waymo 是一个证明这种组合运行良好的极佳案例。
Vincent Vanhoucke:我们要去的那家咖啡馆叫 Atlas Cafe,你知道吗?
Ken Goldberg:我知道,在那很多年了。我和我妻子的第一次约会就在 Atlas Cafe。
Vincent Vanhoucke:哇,感谢 Waymo。
3D 高斯泼溅为什么有前景
Ken Goldberg:我担心物理引擎(Physics Engine)试图解决的问题,其实比我们在现实世界中解决的问题更难。这也正是物理引擎受限的原因。事实上,我们有一个新成果,我们称之为“现实到渲染到视角(Real-to-Render-to-View)”,而不是传统的“现实到仿真(Real-to-Sim)”。
Ken Goldberg:区别在于,“仿真”包含了物理学和动力学,而“渲染”仅仅是位置和视觉信息,没有底层的动力学。对于很多操纵任务(如抓取和放置),你其实并不真的关心动力学,力的大小并不重要,位置才重要。我们所做的是:从一次演示中构建渲染模型,然后对其进行扰动,生成数千个渲染实例。首先它速度极快,其次很容易通过高斯泼溅(Gaussian Splatting)实现。我们发现,基于一次演示生成的上千条扰动轨迹来训练模型,可以让机器人学会处理不同的初始条件。这种“渲染子集”与“准静态操纵”任务是完美契合的。
Vincent Vanhoucke:我对 3D 高斯泼溅和相关技术非常兴奋。因为它真正降低了视觉真实感的门槛,你只需通过 2D 摄像头就能获取高质量 3D 数据,而不需要费力地去构建完整的网格模型(Mesh)。
Ken Goldberg:没错,它在处理植物这类复杂物体时效果极佳。我们一直在为欧洲的一个研究小组构建植物的高斯泼溅模型。生物学家以前不得不盯着从 12 个不同角度拍摄的植物照片,极其枯燥地手动识别植物随时间的变化,比如哪株长得更快、哪株更抗旱。
Ken Goldberg:我们把这些图像构建成了 3D 高斯泼溅,并且是随时间变化的“4D 模型”。现在的生物学家可以以惊人的细节观察植物生长的全过程,他们惊呼:“我的天,我们可以缩放并观察正在发生的微小变化。” 虽然在相机校准等方面花了大量工程精力,但一旦做对,效果非常惊人。
Vincent Vanhoucke:在自动驾驶领域,这也在改变游戏规则。我们现在能生成视觉保真度极高的动态场景,你可以控制其中的行人和动物,改变物体位置,甚至改变季节和一天中的时间。你可以模拟许多“反事实(Counterfactuals)”场景。
Ken Goldberg:很有趣,这将对评估系统产生巨大影响。你可以把多视角相机图像拼接成高斯模型,然后重新生成场景。我也觉得那些新的高斯技术进化得非常快。我很自豪,当年谷歌与伯克利的合作诞生了NeRF(神经辐射场),那是这一切基于学习的视角合成技术的根源。
Vincent Vanhoucke:我同意,这非常强大。今年在 CVPR(计算机视觉与模式识别会议)上,看到视觉社区重新“爱上”3D 真的很有意思。曾经有很多年,受 ImageNet 的影响,所有人都在处理 2D 像素——分类、分割,一切都停留在像素层面。现在,视觉终于回到了“状态估计(State Estimation)”的本质,即将其作为感知现实世界发生什么的手段。
Ken Goldberg:而且你之前告诉我,现在大部分自动驾驶(AV)的研究成果都在 CVPR 发表。
Vincent Vanhoucke:是的,非常多。社区非常有活力。曾经有一段时间人们对自动驾驶的兴奋感下降了,但现在由于 3D 视觉和生成式 AI 的进步,大家获得了新的动力。生成视频的能力是一个游戏规则改变者。当你扩大运营规模时,你会遇到越来越长的“长尾问题(Long-tail problems)”,那些百万分之一甚至千万分之一概率发生的事件,需要我们通过模型去推理和思考。
Vincent Vanhoucke:我还在等待那一天的到来:我可以进车说“听着,我还有 30 分钟赶飞机,准时送到我双倍付钱”。那时候车可能得像出租车司机一样逆行或采取各种极端手段,那才是真正的通用人工智能(AGI)。
Ken Goldberg:这是一个关键的决定——坚持下去。你们推到了一个临界点,现在技术真的可行了,人们能看到它并爱上它。我必须说,这是一个伟大的工程壮举。当这股兴奋浪潮过去后,我们回首往事时会发现,Waymo 在保持这一势头并将其带到今天的高度上,起到了至关重要的作用。
