阅读时间大约5分钟(1886字)
作者:大爆爆 出品:机器人大讲堂
一个瓶盖在机械手指间被旋转、拧开,整个过程流畅得仿佛人手。但驱动这套动作的眼睛只是一个普通摄像头,皮肤是成本不到250美元的触觉传感器。
长久以来,机器人专家深信不疑:要复现人手无与伦比的灵巧性,必须配备与之匹配的、同样精密的感知系统,如高分辨率视觉、能绘制精细力场分布图的触觉传感器。
然而,来自浙江大学等机构研究团队发表在《Science Robotics》的最新研究《Visual-tactile pretraining and online multitask learning for humanlike manipulation dexterity》,以其彻底的降维方式给出颠覆性的答案。

研究团队证明,仅依靠单目RGB摄像头和提供二值触觉信号的简易触觉传感器,机器人手就能在拧瓶盖、转水龙头、滑动杠杆等复杂任务中达到约85%的成功率,并能举一反三,完成削铅笔等未训练任务。
更令人惊讶的是,这套感官系统的总成本仅约250美元。怎么实现的?一套逻辑:灵巧的关键或许不在于感官的高保真,而在于大脑如何理解并融合“感知”与“控制”。
▍硬件降级,为何能力跃升?
这一研究结果挑战了机器人灵巧性领域的传统认知。长久以来,学界和产业界的主流路径是追求感知硬件的极致精密化。
为了让机器人手更聪明,工程师们为其装上多目立体视觉系统、高帧率相机,以及能感知微小压力梯度的高密度触觉传感器阵列。
这套逻辑简单直接:既然人类依靠精密的视觉和触觉配合完成灵巧操作,那么给机器人更高清的“眼”和更敏感的“皮肤”,它理应做得更好。
然而,这条路径成本高昂、系统复杂,且易受光照、遮挡干扰,迟迟未能让机器人获得可靠的日常物品操作能力。
这项新研究则反其道而行之,进行了一场“感官降级”实验:将视觉输入简化为一个固定角度的普通摄像头,将触觉输入简化为分布在手指关键位置的20个二值开关(接触为1,不接触为0)。

结果出人意料:这套“低配”感知系统,在多指灵巧操作任务上的综合表现,远超同等条件下仅有高清视觉或仅有复杂触觉的系统。
▍解耦“感知”与“控制”,模仿人脑分工
奥秘不在于传感器本身,而在于处理传感器信息的大脑。研究团队从神经科学中获得了核心灵感,为机器人构建了一个“仿生大脑”。这个大脑并非混沌一体,而是像人脑一样,有着清晰的功能分区。
顶下小叶区域负责整合视觉与触觉信息,运动皮层区域负责发出运动指令,两者相对独立又协同工作的。也就是说,我们并非直接用眼睛看到的像素去指挥肌肉,而是先由顶下小叶将多种感官信息融合成一个关于“手和物体正在发生何种交互”的抽象理解,再将这个理解传递给运动皮层生成动作。
研究团队精准复现了这一“解耦”架构。他们设计了一个两阶段学习框架:

机器人系统完整学习流程示意图
第一步,赋予它“知觉”。让AI模型观看海量人类佩戴触觉手套操作物体的视频。在此过程中,模型唯一的学习目标,是建立视觉画面变化(如手部姿态、物体移动)与简单触觉信号(何时、何指发生接触)之间的内在关联。
这相当于让AI自行领悟“当手指以某种姿势接触物体某处时,画面通常会是什么样子”。
第二步,训练它“动手”。利用第一阶段训练好的成熟感知能力,“仿生大脑”在虚拟环境中专攻动作控制。这时,它接收到的已经是融合了视觉与触觉意义的高级抽象信号,从而能更高效、更稳定地学会如何移动手指来完成特定任务。
这种分工明确的架构,被同期发表的评论文章盛赞为“方法论的革新” 。它避免了传统方法中,智能体既要学怎么看懂世界,又要学怎么动手操作的混乱与低效,让机器人学习变得像人类一样,先理解,再行动。
▍250美元超低成本,多复杂任务成功率达85%
在严谨的实验中,这套“降级感官+仿生大脑”的机器人手展现出全面而强大的优势。
在五项核心灵巧任务(拧瓶盖、拧水龙头、滑动杠杆、桌面重定向、手中重定向)中,面对25个不同形状、材质(包括光滑、透明)的物体,取得了平均约85%的成功率。
关键对比数据如下表所示:


这意味着,在大多数情况下,它都能像人类一样流畅完成任务。
更关键的突破在于“举一反三”。研究人员给了它三项从未练习过的“加试”:削铅笔、拧螺丝、滑动零食包装套。它居然成功完成了大部分尝试。这说明它学会的并非一套死刻板公式,而是一种更接近本能的物理直觉,能够将核心协调能力迁移到新场景中。

值得注意的是,系统对硬件也表现出极佳的兼容性。研究团队测试了压阻阵列、气压传感等不同原理、不同分辨率的触觉传感器,策略均能良好运行。这得益于预训练时对二值化阈值进行了随机化处理,增强了系统的适应性。

这套系统的硬件核心均采用低成本商用组件,总成本仅约250美元,相比以往依赖数千美元高精度传感器的方案,实现了数量级上的降低。
▍触手可及的灵巧性革命
这项研究的深远意义,在于它为机器人灵巧性的普及扫清了一个关键障碍——成本和复杂度。
它证明,无需等待造价数万美金的高精尖传感器成熟,利用现有的、低成本的感测组件,通过算法层面的革新,就能让机器手获得应对复杂物理世界的能力。
这极大地加速了灵巧机器人从实验室走入仓库、家庭、医院乃至更广阔天地的进程。当灵巧操作不再是一项昂贵的技术特权,而成为一种可大规模部署的基础能力时,一场真正的机器人应用革命才将拉开序幕。
从追求感官的高保真,到致力于理解力的高智能,这条路看似迂回,却可能正是让机器人灵巧性变得“触手可及”的最短路径。
论文链接:https://www.science.org/doi/10.1126/scirobotics.ady2869
