阅读时间大约10分钟以上（7867字）

2026-05-29 OmniVTA 让机器人学会预测“手感”并修正动作

来源：豆包

不只用眼睛看世界，也用“手感”理解世界。

出品：具身释界

很多时候，我们会觉得机器人操作物体，最重要的是“看得准”。

比如机器人要抓一个杯子，只要摄像头看到杯子在哪里，机械臂移动过去，然后夹起来，任务似乎就完成了。

但如果任务稍微复杂一点，事情就没有这么简单了。

想象一下，人类在擦桌子、削黄瓜、切菜、插 USB、拧瓶盖的时候，其实并不是只靠眼睛。很多关键细节，都是靠“手感”完成的。

比如擦桌子的时候，我们会感觉抹布有没有贴住桌面；削皮的时候，会感觉刀有没有真正贴住食材表面；插 USB 的时候，会通过手上的阻力判断有没有对准；抓葡萄、蓝莓这类易碎物体的时候，也会根据手指的压力判断有没有夹太紧。

这些信息，光靠视觉很难判断。

因为摄像头只能看到外部画面，但接触力、摩擦、滑动、卡住、对齐、松动这些变化，很多时候都发生在物体和手指接触的地方。特别是机器人自己的夹爪经常会挡住物体，视觉看到的画面并不完整。

这篇论文 OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation 关注的正是这个问题：

机器人能不能不只是“看到物体在哪里”，而是像人一样，提前预测接下来会发生什么接触，并且在接触出问题时快速修正动作？

换句话说，这篇论文想让机器人真正学会“摸着操作”。

一、为什么接触密集型操作这么难？

在机器人操作任务里，有一类任务叫 contact-rich manipulation，也就是“接触密集型操作”。

这类任务的特点是，机器人和物体之间不是简单地碰一下，而是需要持续、稳定、精细地接触。

比如：

擦拭，需要保持合适的压力，不能太轻，也不能太重。

削皮，需要刀具持续贴住食材表面，同时沿着表面滑动。

切割，需要逐渐增加向下的力，并判断什么时候切断。

装配，需要感知插入过程中的阻力和对齐状态。

手内调整，需要判断物体有没有滑动、有没有转到目标姿态。

这些任务的难点不只是“空间位置”，而是“接触状态”。

机器人需要知道：

现在有没有碰到？

碰得够不够？

是不是太用力了？

有没有打滑？

有没有偏离目标接触位置？

接触状态接下来会怎么变化？

如果只靠视觉，这些问题很难回答。

因为视觉看到的是物体表面，而触觉感受到的是物理交互本身。对于接触密集型任务来说，触觉不是一个可有可无的补充，而是决定任务能不能稳定完成的关键。

过去也有一些工作把触觉加入机器人策略中，但很多方法只是把触觉当作额外输入。也就是说，模型看到图像，再读到触觉信号，然后直接输出动作。

这当然有帮助，但还不够。

因为真正稳定的操作，不只是“感知当前触觉”，还需要“预测未来触觉”，并且根据真实触觉和预测触觉之间的差异，快速调整动作。

这就是 OmniVTA 的核心出发点。

二、这篇论文做了什么？

简单来说，这篇论文主要做了两件事。

第一，作者构建了一个大规模视触觉操作数据集，叫 OmniViTac。

这个数据集包含 21,879 条操作轨迹，覆盖 86 个任务和 100 多个物体。数据里不仅有视觉信息，还有触觉信息和机器人动作信息，并且这些信息在时间上做了同步。

更重要的是，作者没有简单按照“任务名称”来组织数据，而是按照物理接触模式，把任务分成六大类：

擦拭 Wiping

剥皮 Peeling

切割 Cutting

抓取 Grasping

装配 Assembly

手内调整 Adjustment

这六类任务代表了不同的接触机制，比如法向力、剪切力、摩擦、滑动、对齐、插入、扭转等。

第二，作者提出了一个机器人操作框架，叫 OmniVTA。

它的核心不是简单地“视觉 + 触觉 → 动作”，而是：

先根据当前视觉和触觉，预测未来短时间内的接触状态；

再根据预测的触觉状态生成动作；

执行过程中不断比较“预测触觉”和“真实触觉”；

如果发现真实接触状态偏离预期，就用高频触觉反馈快速修正动作。

可以把它理解为一个会“提前想象手感”、又会“根据手感临时调整动作”的机器人策略。

三、先看总览图：OmniVTA 的整体思路

Figure 1 是整篇论文的总览图，可以从左到右来看。

左边是 OmniViTac 数据集。它包含大量真实接触操作数据，里面有图像、触觉和动作轨迹。

中间是 OmniVTA 的方法框架。这里最关键的是一个 Visuo-Tactile World Model，也就是视触觉世界模型。它会根据当前和历史观察，预测未来的接触状态。

右边是机器人真实执行实验。论文展示了模型在真实机器人上的效果，说明这种“预测触觉 + 高频修正”的方式可以提升接触密集型任务的稳定性。

这张图里最值得注意的是中间部分：

模型不是直接从当前图像输出动作，而是会先生成未来的触觉 latent，也就是未来接触状态的压缩表示。然后策略会利用这些预测结果来生成动作。

同时，机器人执行动作时还有一个 reflexive controller，可以理解成“触觉反射控制器”。它会不断检查当前真实触觉和预测触觉是否一致。如果不一致，就给动作加一个修正量。

这和人类操作物体很像。

比如我们擦桌子时，如果手突然感觉抹布离开桌面了，就会下意识往下压一点；如果感觉太用力了，就会稍微放轻一点。这个修正不是慢慢思考出来的，而是快速的触觉反馈。

OmniVTA 也在模仿这种机制。

四、OmniViTac：为什么作者要先做一个大数据集？

Figure 2 展示了 OmniViTac 数据集的整体设计。

这张图可以分成几个部分来看。

左边是数据采集平台。论文使用了两种采集方式：一种是真实机器人 xArm，另一种是 TacUMI 手持式采集设备。两者使用类似的末端夹爪和触觉传感器，这样可以减少不同采集方式之间的差异。

中间是六类视触觉操作模式，包括擦拭、剥皮、切割、抓取、装配和调整。

右上角是数据规模对比。OmniViTac 有 21,879 条轨迹，在视触觉操作数据集里规模比较大。

右下角是数据处理流程，包括时间戳对齐、可视化检查和人工验证。因为触觉信号频率比视觉高，如果不同模态之间时间对不齐，模型学到的就可能是错误的对应关系。比如图像里机器人还没碰到物体，但触觉里已经出现接触信号，这样训练出来的模型就会混乱。

所以这篇论文很强调“对齐”的重要性。

这也很好理解。触觉变化通常发生得很快，尤其是滑动、接触丢失、突然卡住这种情况。如果数据同步不准，模型就很难学到真正的接触动态。

五、六类接触任务：不是按名字分类，而是按物理机制分类

Figure 3 展示了数据集里的六类任务，每个任务都配有第三人称视角、末端执行器轨迹和对应的触觉图。

这张图很适合用来解释为什么触觉对机器人重要。

Assembly：装配

装配任务看起来像是“把一个东西插进去”，但真正难的是对齐和接触判断。

比如插 USB 或插接头时，视觉只能告诉机器人大概位置，但最后几毫米是否对齐，往往要靠触觉判断。如果插入时感觉到异常阻力，说明可能偏了；如果阻力变化变得稳定，可能说明已经进入正确位置。

Cutting：切割

切割任务主要依赖法向力，也就是向下压的力。

切黄瓜、香蕉、辣椒时，机器人需要知道有没有真正切进去，以及什么时候切断。如果只看图像，可能很难判断刀刃内部发生了什么。但触觉可以感受到阻力变化。切断的瞬间，力的变化会很明显。

Adjustment：手内调整

手内调整涉及滑动、旋转和重新定位。

比如夹住一个物体后，让它在夹爪中转到某个角度。这个过程中，触觉能帮助机器人判断物体有没有滑动、滑动方向是什么、是否已经到达稳定姿态。

Peeling：剥皮

剥皮需要持续保持工具和物体表面的接触。

如果刀离开表面，就剥不到皮；如果压得太深，又可能切到里面。这是一个非常典型的“视觉不够，必须靠触觉”的任务。

Wiping：擦拭

擦拭任务需要控制压力和摩擦。

太轻，擦不干净；太重，可能卡住或者损坏传感器。机器人必须持续感知接触是否稳定。

Grasping：抓取

抓取听起来很基础，但触觉依然很重要。

尤其是透明物体、易碎水果、形状复杂的物体，视觉判断可能不可靠。触觉可以告诉机器人是否真的夹住了、是否夹得太紧、有没有滑落风险。

这六类任务覆盖了接触密集型操作中很典型的物理过程。作者这样分类的好处是，模型不只是学“怎么擦一个花瓶”或者“怎么切一根黄瓜”，而是学不同接触模式背后的物理规律。

六、数据分析：触觉信号真的有结构吗？

Figure 4 是数据集分析图，里面包含接触面积分布、力强度分布、任务分布、有效接触比例和触觉 latent 的 t-SNE 可视化。

这张图想说明一个关键问题：

OmniViTac 里的触觉信号不是杂乱无章的，而是和不同任务的物理接触模式高度相关。

比如装配、抓取、手内调整这类任务，通常接触面积比较小，更依赖局部、精细的触觉反馈。它们往往只需要指尖某个区域感受到接触变化。

而擦拭、剥皮、切割这类任务，接触面积更大，通常需要传感器表面更大范围参与接触。特别是擦拭和剥皮，会出现持续的摩擦和剪切力。

图里的 t-SNE 可视化也很有意思。不同任务的触觉特征在 latent space 里形成了比较清晰的聚类。擦拭和剥皮因为都涉及连续摩擦，所以分布比较接近；装配因为更依赖局部几何接触，所以形成了更独立的区域；抓取则比较分散，因为抓取本身包含很多不同物体和不同力模式。

这说明触觉信号确实携带了丰富的任务信息，而且这种信息和物理接触机制有关。

所以这篇论文不是简单地说“加触觉会更好”，而是进一步证明：触觉本身有结构，可以被建模，可以被预测，也可以用于控制。

七、OmniVTA 的核心：慢速规划 + 快速反射

Figure 5 展示了 OmniVTA 的整体系统结构。

这个系统可以理解成两个层次：

上层是 Slow Policy，频率较低，负责规划一段动作。

下层是 Fast Policy，频率更高，负责根据实时触觉反馈修正动作。

这和人类动作控制很像。

比如我们削黄瓜的时候，大脑可能决定“沿着黄瓜表面往前削”。这是一个较慢的计划。但在真正削的过程中，手会根据刀和黄瓜之间的接触不断微调角度和力度。这个调整非常快，并不需要每次都重新做完整规划。

OmniVTA 也是这样。

Slow Policy 主要包括两个部分：

第一个是 Visuo-Tactile World Model，用来预测未来触觉状态。

第二个是 Adaptive Visuo-Tactile Fusion Policy，用来融合视觉、触觉和机器人状态，并生成 action chunk。

Fast Policy 则是 Reflexive Latent Tactile Controller，简称 RLTC。它以 60Hz 的频率运行，根据当前真实触觉和预测触觉之间的差异输出修正动作。

最终执行的动作不是单纯来自上层规划，也不是单纯来自下层修正，而是两者的组合：

慢速策略给出主要动作方向；

快速控制器根据触觉反馈进行细粒度补偿。

这种设计特别适合接触密集型任务，因为接触变化往往很快。如果模型只依赖低频规划，等它发现接触已经偏了，可能已经来不及了。

八、第一步：TactileVAE，把复杂触觉压缩成可用表示

触觉传感器输出的信息通常很复杂。

以光学触觉传感器为例，它可以记录接触引起的表面形变。原始触觉图像分辨率可能比较高，而且频率也比视觉更高。如果直接把这些高维触觉数据输入策略模型，计算开销会很大，也不利于模型学习稳定的表示。

所以论文提出了 TactileVAE，用来把触觉信号压缩成低维 latent。

可以简单理解为：

原始触觉信号是一张很复杂的“手感地图”；

TactileVAE 把这张地图压缩成一个更小、更抽象的表示；

后面的 world model 和 policy 就不需要处理原始触觉图，而是处理这个压缩后的触觉表示。

Figure 6 中，TactileVAE 包含一个时空编码器和一个隐式解码器。

编码器负责把一段触觉变化压缩成 latent feature。

解码器负责根据 latent 和空间坐标，重建连续的触觉形变场。

这里比较有意思的是，作者没有把触觉当成普通图片来重建，而是把它看作一个连续的表面形变场。因为触觉传感器感受到的，本质上是接触导致的弹性表面形变，而不是普通 RGB 图像。

这样设计的好处是，模型能更自然地学习局部接触和连续形变。

九、第二步：Visuo-Tactile World Model，预测未来接触状态

这篇论文最核心的地方，是它把 world model 引入了视触觉操作。

这里的 world model 不是简单预测未来图像，而是重点预测未来的触觉状态。

为什么要预测未来触觉？

因为机器人在接触密集型操作中，真正关心的是：

如果我继续这样动，接下来会不会接触？

接触会不会变强？

会不会打滑？

是不是快要失去接触？

是不是会产生过大的力？

比如擦拭的时候，机器人当前可能还贴着物体，但如果继续沿着当前方向移动，下一秒可能会滑出表面。模型如果能提前预测未来触觉变化，就可以提前调整动作，而不是等失败发生后再补救。

论文里的 Visuo-Tactile World Model 采用双流结构。

一条流建模视觉，一条流建模触觉。视觉 latent 和触觉 latent 分别进入对应的时空扩散 Transformer，但它们共享一个多模态条件，包括历史视觉、历史触觉和动作信息。

这相当于让模型同时学习：

视觉世界怎么变化；

触觉世界怎么变化；

动作如何影响视觉和触觉变化；

视觉和触觉之间如何互相对应。

不过在实际推理时，作者主要使用未来触觉预测，而不是未来视觉预测。原因也很好理解：当前图像已经提供了足够的全局空间信息，而触觉预测更直接反映未来接触动态。同时，生成未来视觉会增加计算开销，降低推理速度。

所以这篇论文真正关心的是：

让机器人提前“想象”未来的手感。

十、第三步：Adaptive Fusion，什么时候相信视觉，什么时候相信触觉？

视觉和触觉都重要，但它们的重要性不是固定的。

在机器人还没接触物体之前，触觉基本没有信息。这个时候更应该相信视觉，因为视觉可以告诉机器人物体在哪里。

但一旦进入接触阶段，触觉就变得非常关键。比如刀是否贴住表面、夹爪是否抓稳、插头是否对齐，这些都需要触觉判断。

所以 OmniVTA 设计了一个 Adaptive Visuo-Tactile Fusion Policy，也就是自适应视触觉融合策略。

它会根据预测的接触状态，动态调整视觉和触觉的权重。

论文里有一个很关键的模块，叫 LTD Encoder，Latent Tactile Differential Encoder。

它做的事情很直观：

拿当前触觉 latent；

拿 world model 预测的未来触觉 latent；

计算两者之间的关系和差异。

这个差异很重要。

如果预测的未来触觉和当前触觉差别很大，可能说明接触状态即将发生变化。比如将要接触、将要脱离、将要滑动、将要受力变大。

然后模型会基于这些信息预测未来接触概率，并通过 gating mechanism 动态决定视觉和触觉的权重。

可以这样理解：

还没碰到物体时，视觉权重大；

开始接触后，触觉权重上升；

接触状态变化明显时，触觉对动作生成的影响更大。

这比简单拼接视觉和触觉更合理。

简单拼接的问题是，模型自己要从一大堆特征里判断什么时候用视觉、什么时候用触觉。但 OmniVTA 显式加入了接触概率和 gating 机制，让融合过程更符合接触任务的规律。

十一、第四步：RLTC，让机器人有“触觉反射”

在很多 diffusion policy 或 action chunking 方法里，模型会一次性生成一段未来动作，然后机器人按这段动作执行。

这种方式效率高，但问题是，它通常比较 open-loop。

也就是说，一旦动作开始执行，中间如果发生接触变化，比如物体突然移动、刀具偏离表面、夹爪压力变化，模型不一定能立刻修正。

OmniVTA 为了解决这个问题，加入了 RLTC，也就是 Reflexive Latent Tactile Controller。

它的作用可以理解成机器人的“触觉反射”。

RLTC 的输入包括：

当前真实触觉反馈；

world model 预测的触觉特征；

机器人最近的状态变化。

它会比较真实触觉和预测触觉之间的差异，然后输出一个细粒度修正动作。

比如模型原本预测应该保持稳定接触，但真实触觉突然变弱，说明可能快要离开表面。RLTC 就可以让机器人稍微压回去。

如果真实触觉突然变得过强，说明可能用力过大。RLTC 就可以让机器人减小压力，避免损坏传感器或物体。

这个模块以 60Hz 的频率运行，比慢速策略更快。因此它可以处理快速接触变化。

这也是 OmniVTA 和很多传统方法的关键区别：

它不只是“预测动作”，而是把预测和实时反馈结合起来，让机器人可以边做边修正。

十二、实验：OmniVTA 真的更好吗？

论文在真实机器人上评估了六类任务，包括擦拭、剥皮、切割、装配、抓取和调整。

评估重点有三个：

第一，物体多样性。也就是同一类任务中，换不同物体，模型是否还能成功。

第二，泛化能力。比如换不同高度，或者在切割任务里换一把没见过的刀。

第三，扰动鲁棒性。比如任务执行过程中突然把目标物体上下移动，打破当前接触状态，看模型能不能恢复。

论文比较了多种 baseline，包括 Diffusion Policy、加入触觉的 Diffusion Policy、KineDex、ForceMimic、RDP，以及去掉 RLTC 的 OmniVTA。

实验结果显示，OmniVTA 在六类任务中整体表现最好。

尤其是在接触强、扰动多的任务中，比如擦拭、剥皮、切割，OmniVTA 的优势更明显。

这说明它不是简单依赖视觉记住轨迹，而是真的利用触觉反馈来调节接触。

十三、实验结果怎么看？

Figure 10 和 Table III 展示了真实机器人实验结果。

这里可以重点看几个结论。

首先，OmniVTA 在 object diversity 评估中表现最好。也就是说，在不同物体上，它比其他方法更稳定。

这说明模型不是只记住某一个物体的轨迹，而是学到了一些可迁移的接触规律。

其次，在 unseen height 评估中，很多 baseline 表现下降明显。因为物体高度变化后，原来学到的视觉-动作对应关系可能不再准确。

但 OmniVTA 依然表现较好，说明触觉预测和闭环修正让它对几何变化更鲁棒。

第三，在切割任务中，论文换了一把训练时没见过的小刀。OmniVTA 仍然能保持较好的性能。这说明它并不是简单记住“用某把刀怎么切”，而是利用接触反馈判断切割过程。

第四，在扰动实验中，OmniVTA 的闭环控制器作用非常明显。当物体突然移动、接触状态被打破时，RLTC 可以帮助机器人重新建立稳定接触。

这对真实机器人操作非常重要。因为真实环境不可能永远静止、完美、没有干扰。物体可能滑动，人可能碰到桌子，工具可能位置稍微偏移。如果机器人不能实时修正，就很容易失败。

十四、消融实验：到底是哪部分有用？

论文还做了很多消融实验，用来回答一个问题：

OmniVTA 的提升到底来自哪里？

TactileVAE 有用吗？

作者比较了不同触觉编码方式，发现带隐式解码器的 TactileVAE 重建效果最好。

这说明把触觉建模成连续形变场是有效的。它能更好地保留局部接触结构，而不是把触觉粗暴压缩成一个普通向量。

未来触觉预测有用吗？

论文比较了多种触觉预测方式，OmniVTA 的 world model 在短期和长期预测上都更好。

这说明双流视触觉 world model 确实能学习视觉、动作和触觉之间的动态关系。

更重要的是，后续实验也说明，触觉预测越准确，策略成功率越高。如果触觉预测变差，模型对未来接触概率的判断也会变差，最终动作也更容易失败。

LTD 和 gating 有用吗？

作者逐步加入未来触觉预测、LTD Encoder 和 gating mechanism，成功率逐渐提升。

这说明不是“随便预测一点触觉”就够了。关键是要用合理的方式把预测触觉转化成策略信息。

LTD 让模型关注当前触觉和未来触觉之间的差异；gating 让模型根据接触状态动态调整视觉和触觉权重。

这两个模块共同帮助策略更好地理解“接下来接触会发生什么”。

RLTC 有用吗？

Figure 15 展示了扰动实验。

当接触被突然破坏时，OmniVTA 可以通过 RLTC 重新恢复接触。这说明 RLTC 不只是锦上添花，而是在真实接触环境中非常关键。

如果没有这个模块，模型执行 action chunk 时更像是在按计划走，一旦环境变化，恢复能力就弱。

而加上 RLTC 后，机器人可以根据实时触觉反馈快速修正。

十五、这篇论文最值得关注的点

我觉得这篇论文最重要的价值，不只是“用了触觉传感器”，而是它重新定义了触觉在机器人操作中的角色。

过去很多方法里，触觉只是一个额外 observation。

就像给模型多加了一个传感器，让它知道当前有没有碰到。

但 OmniVTA 进一步提出：

触觉不应该只是被动观察，而应该被预测、被比较、被用于闭环控制。

这就把触觉从“输入信息”变成了“动态模型的一部分”。

可以用一句话概括：

普通视触觉策略是： 看到 + 摸到 → 输出动作。

OmniVTA 是： 看到 + 摸到 → 预测接下来会摸到什么 → 执行动作 → 检查真实触觉是否符合预测 → 不符合就快速修正。

这个逻辑明显更接近人类操作物体的方式。

我们在操作物体时，也不是只根据当前一瞬间的触觉做反应，而是会形成某种预期。比如削皮时，我们预期刀应该持续贴着表面；插 USB 时，我们预期轻微阻力之后应该顺利进入；擦桌子时，我们预期抹布应该持续和桌面接触。

一旦真实手感和预期不一致，我们马上调整动作。

OmniVTA 就是在机器人系统里实现了类似机制。

十六、这篇论文和 world model 有什么关系？

现在很多机器人论文都在讲 world model，但不同论文里的 world model 含义不完全一样。

有些 world model 关注未来图像生成，希望模型预测执行某个动作后画面会变成什么样。

有些 world model 关注长时序任务规划，希望模型在脑中模拟未来很多步。

OmniVTA 的 world model 更偏向 contact dynamics model，也就是接触动态模型。

它不是重点生成一个漂亮的未来视频，而是重点预测未来触觉状态。

这点很重要。

因为在接触密集型操作里，未来图像不一定是最关键的。比如削皮时，画面变化可能很小，但触觉变化非常关键。机器人真正需要知道的是刀具和物体之间的接触是不是稳定、力是不是合适、有没有滑动。

所以 OmniVTA 的 world model 可以理解成：

不是让机器人“看见未来”，而是让机器人“预感未来的手感”。

这也是它和很多纯视觉 world model 的区别。

十七、这篇论文有什么局限？

当然，这篇论文也不是解决了所有问题。

首先，它主要使用的是平行夹爪和指尖触觉传感器，而不是复杂的五指灵巧手。平行夹爪的接触形式相对简单，如果迁移到灵巧手，触觉分布会更复杂，动作空间也会更高维。

其次，方法比较依赖高质量触觉传感器和稳定的时间同步。触觉数据频率高、变化快，如果传感器噪声大或者同步不准，world model 的预测可能会受影响。

第三，OmniVTA 的 world model 主要预测短期触觉变化，而不是长时序任务级别的世界模型。它更适合解决“接下来这段接触怎么变化”，而不是负责完整的高级任务规划。

第四，数据集虽然规模已经很大，但仍然集中在特定硬件和传感器配置上。未来如果要推广到更多机器人本体、更多传感器、更多家庭场景，还需要更大规模的数据和跨平台适配。

十八、对机器人学习有什么启发？

这篇论文给我的一个很重要的启发是：

未来的机器人操作模型，可能不能只追求更强的视觉理解，也不能只把触觉当作一个额外模态简单拼接进去。

真正有价值的是让模型理解不同模态在物理交互中的作用。

视觉适合提供全局空间信息，比如物体在哪里、目标在哪里、环境结构是什么。

触觉适合提供局部接触信息，比如有没有碰到、压力多大、有没有滑动、摩擦状态如何。

动作则连接视觉和触觉，决定接触状态如何随时间变化。

如果把视觉、触觉和动作放在一个动态模型里，机器人就不只是被动感知环境，而是可以预测自己动作带来的物理后果。

这对 contact-rich manipulation 非常关键。

尤其是未来如果要做灵巧手、全身人形机器人、家务机器人、工具使用机器人，触觉预测和高频触觉反馈可能会变得越来越重要。

因为越是接近真实世界，越会遇到视觉看不清、物体会滑动、接触状态不稳定的问题。

十九、总结

OmniVTA 这篇论文可以用一句话总结：

它让机器人不只是“看着操作”，而是能够“预测接触、感知偏差、快速修正”，从而更稳定地完成擦拭、剥皮、切割、装配、抓取和手内调整等接触密集型任务。

它的核心贡献包括：

构建了大规模视触觉操作数据集 OmniViTac；

把接触任务按照物理接触模式分成六大类；

提出了 TactileVAE，用于学习紧凑的触觉表示；

提出了 Visuo-Tactile World Model，用于预测未来触觉状态；

设计了自适应视触觉融合策略，根据接触状态动态调整视觉和触觉权重；

加入了 60Hz 的 RLTC 触觉反射控制器，实现高频闭环修正。

这篇论文最值得学习的地方，是它没有把触觉当成一个简单附加输入，而是把触觉放进了“预测—执行—反馈—修正”的闭环里。

对于机器人来说，真正困难的不是在静态画面里识别物体，而是在真实物理世界里稳定地和物体发生接触。

而 OmniVTA 走出的这一步，就是让机器人开始学会：

不只用眼睛看世界，也用“手感”理解世界。

${{item.author_display_name}}$

右键可直接复制图片

2026-05-29 OmniVTA 让机器人学会预测“手感”并修正动作

清研精准完成数亿元B轮系列融资

他山科技完成数亿元B轮融资

无界智航完成首轮近亿元天使轮融资

Robopoet 完成亿元级 Pre-A 轮融资

具身研习社联合主办｜探月计划·Physical AI黑客松落幕，在海淀看见具身智能以赛促产的转化链路

清研精准完成数亿元B轮系列融资

2026-05-29 OmniVTA 让机器人学会预测“手感”并修正动作

{{item.post_title}}

清研精准完成数亿元B轮系列融资

他山科技完成数亿元B轮融资

无界智航完成首轮近亿元天使轮融资

Robopoet 完成亿元级 Pre-A 轮融资

具身研习社联合主办｜探月计划·Physical AI黑客松落幕，在海淀看见具身智能以赛促产的转化链路

清研精准完成数亿元B轮系列融资