如何让机器人学会使用螺丝刀、拧紧螺母?加州伯克利给出了答案!
统计 阅读时间大约7分钟(2728字)

2025-12-08 如何让机器人学会使用螺丝刀、拧紧螺母?加州伯克利给出了答案!

来源:豆包
一套“低成本、可扩展”的灵巧操作落地方案。

作者:李鑫    出品:机器人大讲堂

拧螺丝、紧螺母,这些人类看似轻松的精细操作,对机器人来说却是巨大挑战。复杂的接触面摩擦、难以预判的螺纹咬合,再加上指尖触觉反馈的精准模拟难题,让机器人在这类接触密集型任务中屡屡受挫。

1963c8c61f087a6bd892f9fdeedc3516.png

加州大学伯克利分校的研究团队给出了一套全新解决方案——DexScrew框架。它跳出了“必须高保真仿真”的思维定式,用简化仿真学核心技能,靠真实世界数据补全细节,最终让机器人在无视觉依赖的情况下,凭借触觉和时序信息,精准完成螺母螺栓紧固与螺丝刀操作,甚至能应对未见过的零件形状和外部干扰。

▍三步流程:从简化仿真到真实操作的完整落地

460c9437948796f9203d2b3ded4bc549.png

研究方法概述

第一步:简化仿真中练出“核心旋转技能”

研究团队没有在仿真中复刻螺母、螺丝刀的复杂细节,而是做了极致简化:把螺母简化成厚三角形,把螺丝刀手柄简化成球形或多边形,通过旋转关节和固定底座连接。这种设计完全忽略螺纹结构和复杂摩擦,只保留“旋转”这一核心动作需求。

a8df27c5d4b8bfafd384ec5c9c25bea9.png

简化物体模型。每个螺母或手柄均被建模为一个刚体,通过旋转关节与固定底座相连。这种抽象建模方式忽略了螺纹层面的力学特性,同时保留了学习过程中所需的核心旋转动力学特征。

之所以这么设计,是因为团队发现:机器人操作这类零件的关键,是掌握手指的旋转步态(比如拇指和食指如何交替用力),而这种核心运动模式,不需要依赖高保真仿真。简化模型能让强化学习快速收敛,还能避免机器人学到依赖仿真细节的“坏毛病”——比如厚三角形螺母的设计,就是为了防止机器人学会“从底部用力顶”这种在真实世界中行不通的动作。

训练时,团队采用了“先知策略+感官运动策略”的两步法。先知策略能获取仿真中的全部“内幕信息”,包括零件的质量、摩擦系数、手指位置等97维数据,快速找到最优旋转动作;之后再通过蒸馏技术,把这些技能转移到感官运动策略中,让它仅靠关节运动历史就能完成动作,为后续真实世界部署做准备。

为了提升鲁棒性,训练过程中还加入了域随机化——随机调整零件的质量、尺寸、摩擦系数,甚至加入微小的外力干扰,让策略在仿真中就具备应对变化的能力。

第二步:遥操作收集真实世界“多感官数据”

仿真训练的策略虽然能完成旋转动作,但缺少真实世界的物理反馈和触觉信息,无法应对螺纹咬合等实际情况。这一步的核心,是用仿真学到的技能当“助手”,降低人类遥操作的难度,高效收集真实数据。

45e5a3d4e672810c26a8b1f17d3bac2f.png

遥操作界面:操作人员通过VR控制器的按键控制腕部位置,并借助操纵杆调节偏航角与俯仰角。该设置使操作人员能够在数据收集过程中引导机械臂运动,同时依托已习得的手指旋转技能完成精细操作。

团队设计了一套技能辅助遥操作系统:人类操作员不用控制每个手指的关节,只需通过VR手柄控制机器人手臂的腕部位置(比如上下移动、调整角度),并在合适时机触发仿真训练好的“手指旋转技能”。简单说,人类负责“对准位置”,机器人负责“精细拧动”。

这种方式极大降低了操作门槛,操作员不用纠结于手指的复杂协调,能快速收集大量高质量数据。数据收集过程中,系统会同步记录两部分关键信息:一是机器人的关节运动数据(包括手部12个关节和手臂6个关节的位置),二是指尖的触觉信号——每个指尖有120个压力传感单元,能捕捉三轴方向的微小力变化,最小可检测0.05N的力,相当于一根头发的重量。

最终,团队为螺母螺栓任务收集了50条轨迹(每条约80秒),为螺丝刀任务收集了72条轨迹(每条120-180秒),构建了包含运动和触觉的多感官数据集。

第三步:行为克隆训练“精准触觉策略”

有了真实世界的多感官数据,接下来就是训练能落地的最终策略。团队采用行为克隆(BC)方法,让机器人“模仿”遥操作中的成功动作,同时融入触觉反馈和时序信息,提升精准度和鲁棒性。

策略的神经网络设计很有针对性:输入过去5个时间步的关节运动数据和触觉信号,输出未来16个时间步的动作序列。这种“预测未来动作”的设计,能让机器人更好地把握动作的连贯性,避免单次决策的偏差。

触觉信号的处理是关键:先将5个手指、每个手指120个单元、三轴方向的信号扁平化,通过神经网络提取特征,再和关节运动数据融合。这样一来,机器人能通过触觉判断是否打滑、是否对准,及时调整腕部角度或手指力度。

训练过程中,用均方误差损失函数让预测动作尽可能贴近真实遥操作动作,经过200个epoch的训练,最终得到兼具稳定性和泛化能力的策略。值得一提的是,整个策略完全不依赖视觉,即便在昏暗或遮挡环境中也能正常工作。

▍实测效果:跨形状泛化,抗干扰能力拉满

团队在UR5e机械臂+12自由度XHand灵巧手上做了全面测试,覆盖螺母螺栓紧固和螺丝刀操作两大任务,结果远超传统方法。

▍螺母螺栓任务:四种形状全拿下,触觉是关键

测试用了方形、三角形、六边形、十字形四种螺母,其中六边形和十字形是训练中没见过的“新形状”,专门用来考验泛化能力。

1e48c7ea3059bea90624552d4789316a.png

真实世界紧固性能测试结果

结果显示,融合触觉和时序信息的DexScrew策略表现最佳:所有螺母的紧固进度比都超过95%,十字形螺母更是达到98.75%,平均完成时间在75-125秒之间。对比之下,没有触觉的策略在三角形螺母上的进度比只有30%左右,即便有了时序信息,也难以稳定完成操作。

关键原因在于,触觉能帮机器人快速纠错:当螺母轻微错位或打滑时,指尖触觉信号会立刻变化,策略会及时调整腕部orientation 或施加向下的校正力,重新建立稳定接触;而没有触觉的策略,一旦错位就会持续失效,无法恢复。

▍螺丝刀任务:攻克打滑难题,稳定性碾压基线

螺丝刀操作比螺母螺栓更难——刀杆没有沿螺丝轴线的约束,稍微倾斜就会打滑,且螺丝刀与螺丝的咬合关系极难仿真。

测试结果显示,传统直接仿真到现实的策略,进度比只有41.6%,从未完成一次完整拧紧;专家数据回放的进度比也只有50.8%,无法适应部署时的细微变化。

8b1de354b7901113b146c68bf9cd99c4.png

真实世界螺丝刀操作性能

159cd81e080ef8f0d135f430d05edad3.png

触觉信息对操作模式的影响

而DexScrew策略在融合触觉和时序信息后,进度比飙升至95%,平均完成时间仅187.87秒。可视化显示,有触觉的策略能维持拇指和食指的交替接触模式,始终牢牢“抓”住螺丝刀手柄;没有触觉的策略则频繁出现接触不稳定、刀杆偏移,最终导致操作失败。

▍抗干扰测试:外力拖拽、反向旋转都能恢复

团队还测试了策略的抗干扰能力:故意用外力拖拽机器人手指,或反向旋转螺母、螺丝刀。

bba1afc6d3d6f6f57500415d792f41c1.png

策略抗干扰恢复性能

结果显示,DexScrew策略能快速调整——被拖拽后会重新定位手指和腕部,恢复稳定接触;遇到反向旋转时,会先稳住姿态,再重新启动正确的旋转方向,全程不会中断任务。

▍消融实验:这些设计缺一不可

为了验证各组件的作用,团队在仿真中做了对比实验。

特权信息很重要:训练时给策略提供零件质量、摩擦系数等“内幕信息”,能让episode奖励大幅提升,没有这些信息的策略,性能会明显下降;

时序信息是补充:仅靠单次观测的策略,难以判断零件形状和旋转进度,加入过去5个时间步的历史数据后,泛化能力显著提升;

触觉是核心:在复杂形状或易打滑的场景中,触觉反馈能让进度比提升30%以上,是稳定完成任务的关键。

e682e619add5d25bfdce0a4ae3758a43.png

螺丝刀操作策略训练的仿真消融实验

这些结果证明,DexScrew的三步流程、触觉+时序信息融合的设计,不是多余的“叠加”,而是相互支撑的核心竞争力。

▍结语与未来:

DexScrew的突破,不仅在于解决了拧螺丝、紧螺母这两个具体任务,更在于提供了一套“低成本、可扩展”的灵巧操作落地方案。它不追求完美仿真,而是用“简化仿真学技能+真实数据补细节”的思路,避开了传统方法的短板,让普通实验室也能训练出高性能的灵巧操作策略。同时,它验证了触觉反馈在接触密集型任务中的不可替代性,为后续机器人在工业装配、家庭服务、精密制造等领域的应用打下了基础。

论文链接:https://arxiv.org/pdf/2512.02011

01490c5d99569026d6280c02865a8737.jpg

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×