一份全面的具身多模态大模型知识地图
统计 阅读时间大约10分钟以上(8478字)

2025-04-18 一份全面的具身多模态大模型知识地图

来源:文心一言
文章系统调研了近300篇文献,从基础模型到感知、导航、交互、仿真及数据集进行了全栈式分析,绘制了一幅EMLM的发展蓝图。

作者:锦秋基金  出品:锦秋集

当下具身多模态人工智能(Embodied Multimodal AI)的发展正进入快车道。为了全面把握这一新兴领域的研究脉络,来自广东人工智能与数字经济实验室(深圳)、深圳大学、ENSTA Paris及中山大学的学者们联合撰写了一篇深度综述《Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions》。

文章聚焦于能够融合语言、视觉、听觉等信息,使智能体理解现实世界并与之自然交互的具身多模态大模型(EMLM),系统调研了近300篇文献,从基础模型到感知、导航、交互、仿真及数据集进行了全栈式分析,绘制了一幅EMLM的发展蓝图对于致力于具身智能领域的创业者和研究者而言,这篇综述无疑提供了一个极佳的切入点和全面的参考框架。

因此锦秋基金也对这篇文章做了编译。

01

基础模型的发展

EMLM的出现离不开各类基础模型的发展进步。这里的基础模型包括具身智能体(Embodied Agents,即大模型的载体)、以及支撑多模态认知的各类大模型(语言、视觉、视觉-语言、其他模态等)。这些基础要素的发展为EMLM的构建提供了必要条件。

具身智能体


具身智能体是指拥有物理或虚拟形体,能够感知环境并采取行动与之交互的自主实体。

具身智能体是EMLM在现实或虚拟世界中的载体,常见形式包括机器人、自动驾驶汽车、虚拟代理等。

机器人是当前具身智能体研究中最主要的载体,其形态多样,例如:固定基座机械臂、轮式机器人、四足机器人、人形机器人、软体机器人等。不同形态的机器人擅长不同任务,例如固定基座机械臂(如Franka Emika机械臂)常用于工业环境中的自动抓取和放置任务,而具有类人形态和灵活性的仿人机器人则可胜任更广泛的领域。

除了机器人,自动驾驶车辆也可视为具身智能体的一种。它们通过传感器实时感知环境,进行决策并与周围环境交互。不仅关注行车安全,最新的自动驾驶系统还能理解人类指令、与乘客对话等,实现更自然的人机互动。

虚拟代理则存在于游戏、社交虚拟人等数字环境中。这些智能体通过语言、视觉、声音等多模态与用户互动,为用户带来丰富沉浸的体验。

综上,具身智能体作为EMLM的载体,为大模型的感知和行动提供了实体依托,不论在物理世界还是虚拟空间,它们都是EMLM发挥作用的“躯体”。

大型语言模型

大型语言模型(LLM)如GPT-4、BERT、T5等是现代自然语言处理的核心基础之一。LLM通过在海量文本上的无监督预训练,能够捕获复杂的语言模式和结构,被誉为EMLM的“语言大脑”。

在具身多模态系统中,LLM主要负责理解和生成自然语言:一方面,它使智能体能够理解人类的语音或文字指令,将其转化为可执行的动作或查询。

另一方面,它支持智能体对视觉、听觉等感知进行语言描述或推理,从而在不同模态之间架起沟通的桥梁。通过与视觉、听觉数据结合,LLM使具身系统能够将多模态输入转化为情景相关的响应,实现更智能的交互。

大型视觉模型

大型视觉模型(LVM)面向图像和视频信息的理解与生成。视觉模型的演进极大提升了图像识别、目标检测、图像生成和跨模态学习等任务的性能。在具身智能中,视觉模型使机器人能够感知并理解复杂动态环境,将感知到的图像信号转化为对环境的语义理解。

视觉模型的代表性进展包括:

大型视觉模型概览

大型视觉-语言模型

大型视觉-语言模型(LVLM)将视觉与语言模态融合,赋予智能体跨模态的环境理解、推理和任务执行能力。

LVLM能够将来自摄像头的视觉信息与语言指令或描述相结合:一方面,智能体可以经由LVLM识别视觉输入中的物体并理解其语义;另一方面,可以根据人类的语言命令,对视觉环境做出相应决策和动作。

通过视觉-语言信息的统一表示,LVLM让智能体具备跨模态推理能力,例如在动态环境中根据视觉线索理解复杂指令,或在执行导航与操作任务时将语言描述映射到具体的视觉目标上。

LVLM的出现显著提升了机器人在导航和交互过程中的认知决策水平,使其在不确定环境中也能协调视觉和语言信息,进行自适应的行为规划。

其他模态模型

除了上述主要模态,EMLM还涉及听觉和触觉等模态的信息利用与融合。

视觉-音频模型:视觉-音频模型通过结合声学线索,丰富了智能体对环境的感知手段,在导航和操作任务中起到补充视觉盲区、提供额外环境线索的作用。然而,目前在具身任务中融合音频的研究相对较少。最新的探索主要集中在音频-视觉导航任务上,例如SoundSpaces平台提出的AudioGoal(目标通过声音指示)和AudioPointGoal(利用声音提供方向引导)任务。在这些任务中,智能体需根据声音来源进行导航,挑战在于声音的连续性和定位。为此,有研究将音频信号与环境的语义和空间信息联系起来,以应对间断声源带来的困难。

视觉-触觉模型:在机器人操作(如抓取、操控)中,视觉通常是主要的信息来源,但仅靠视觉传感器存在局限,例如可能受遮挡影响,且无法感知接触力量。这些限制会影响机器人对物体的精细操作和反馈控制。举例来说,有工作提出融合视觉和触觉数据的网络,用于估计手中物体的6D姿态,从而提升操作精度。在抓取任务中,有研究设计了带触觉反馈的重抓策略:机器人可以根据触觉传感器反馈反复调整抓取姿势,结果表明触觉信息能明显提高抓取成功率。对于更复杂的对象(如可变形物体),也有框架采用基于Transformer的模型,将触觉与视觉数据融合用于安全抓取;机器人通过试探性动作获取触觉反馈,据此预测抓取结果,从而选择更安全的参数。

以上各类基础模型的发展,使得具身多模态大模型成为可能:具身智能体提供了执行载体,语言模型赋予其理解和交流能力,视觉模型提供环境感知能力,视觉-语言模型实现跨模态推理,音频和触觉等模态则进一步丰富了感知手段。

基于这些进展,研究者开始探索如何将它们融合,赋能统一的模型来执行具身智能任务。

下面将详细介绍具身多模态大模型在具体任务方向上的发展。

02

具身多模态大模型的发展

EMLM是一类融合多模态信息(语言、视觉、听觉等)的AI模型,旨在使智能体能够理解多源环境数据并执行复杂任务。

这类模型通常需要在感知、导航、交互三大模块上发挥作用,以完成在真实或虚拟环境中的复杂任务。

一个典型场景是:智能体通过摄像头、LiDAR等传感器感知环境,接收人类的语言指令,经过内部的认知与决策,控制自身移动实现导航,并与环境中的物体或人进行交互来完成任务。这些过程中,所需的数据和大模型既可以来源于仿真环境,也可以来源于真实世界。

下面我们将分别从具身感知、具身导航、具身交互和仿真四个关键方面介绍EMLM的研究进展。

具身感知

具身感知要求智能体对物理世界中的对象、关系和动态过程有深刻的理解,这区别于传统视觉识别中静态地辨认物体。

根据具身智能的定义,具身智能体不仅要识别环境中的目标,还要与环境交互并移动,因此需要理解对象的三维属性以及对象间的运动和逻辑关系。例如,机器人需要根据视觉信息理解场景中物体的空间位置、可能的操作方式,并预测交互可能引起的状态变化。

相比纯视觉模型,具身感知模型更强调视觉推理和行动预测,要求从感知中获得对环境更深入的语义和因果理解,以支撑随后的决策和操作。

当前,具身感知大模型主要有两类技术路线:一类是基于GPT等大型语言模型的方法,直接利用预训练的语言大模型来理解和描述视觉场景;另一类是基于其他大型模型的方法,融合专用的视觉或多模态模型来实现感知功能。

下表列出了具身感知领域具有代表性的大模型及其主要特征。

具身感知大模型概览

从上表可以看到:一部分模型直接采用预训练的大型语言或多模态模型(如GPT-4、Vicuna等)结合视觉模型,对机器人感知任务进行微调或适配;另一部分则基于专门训练的视觉-语言模型或策略模型(如OpenFlamingo、Mamba等)来实现感知功能。

总体而言,基于GPT的方案利用了通用语言模型强大的理解与生成能力,能够将视觉感知结果以自然语言形式输出,例如Octopus模型将视觉场景理解结果转换为文本描述。非GPT方案则往往结合更贴合机器人感知任务的模型与数据训练,从而在特定任务上取得更高精度或效率。

具身导航

导航是具身智能体的一项核心能力。

传统机器人点到点导航通常依赖于已知地图,用算法(如A*或Dijkstra)规划最短路径,从起点移动到终点 。而具身导航则更加强调在未知或动态环境中的自主移动:智能体需要利用传感器实时感知周围环境,将环境信息转换为可理解的语义,再据此规划行动路线,而非仅依赖预先给定的地图 。

当前具身导航大模型有两种主要方法路径:

(1)借助通用大模型来解决导航,即将导航任务转换为大型预训练模型(尤其是语言模型或多模态模型)可以处理的问题,通过这些模型的知识和推理能力指导导航决策,例如DiscussNav和Trans-EQA使用了带视觉能力的GPT-4V与视觉语言模型InstructBLIP,通过将导航任务描述输入GPT-4V,从而推理出可行路径,优势在于零样本/少样本下也能处理复杂指令。但由于通用模型未必专门针对导航优化,其环境感知和低级控制能力可能需要额外模块辅助。

(2)专门为导航任务打造EMLM,也就是设计针对具身导航的多模态大模型,从结构和训练上都围绕导航需求进行优化。例如LM-Nav在真实室外环境中应用GPT-3作为高层规划,同时结合地图信息执行底层控制,实现了从语言到行动的完整闭环 。下表列出了一些具身导航领域的重要大模型及其特性。

具身导航大模型概览

具身交互

传统的机器人交互方式通常需要集成独立的感知、决策、规划和控制等模块来完成特定任务。随着深度学习的进步,尤其是语言和视觉模型的重大进展,具身智能交互变得可行。

具身智能交互指的是使智能体与大型模型具备多模态处理能力,包括自然语言推理、视觉—空间语义感知以及视觉感知与语言系统的对齐等关键技术。

目前,具身智能交互的基础能力要求系统能够理解人类的自然语言指令并自主完成任务,因此基于语言的具身智能交互成为研究的核心焦点。

它大体可以分为两类:基于语言的短时程动作策略和基于语言的长时程动作策略。

fc5f74305036f214b711a71fb1a891a9.pngf7c7e2f9e0184b8184f1e61f1cc36a62.pngf3db09195e64ca956ae593109be752c6.pngfa22b369f9db32f930d1887fbb6921ba.png

基于语言的短时程动作策略

R3M 利用 Ego4D 视频数据训练视觉编码器,与 CLIP、MoCo 相比可提升约 10% 的操作成功率。

Vi-PRoM 在数据集、模型架构与训练策略三方面改进预训练过程,性能优于 R3M。

有研究利用包括 Ego4D、ImageNet、Epic Kitchens、Something Something、100 Days of Hands 在内的 450 万张图像进行训练,引入掩码自动编码器(MAE)方法,较 CLIP 和传统 ImageNet 预训练方法分别提高最高 75% 和 81%。

RT-1 以海量开放环境数据训练出多任务与未知场景的泛化能力,并在数据规模、模型大小与多样性上探索技能泛化。

Google DeepMind 在此基础上引入了 MOO 进行零样本学习(新环境/新物体),并提出 Q-transformer 通过 Transformer 学习强化学习中的 Q 值。

为增强机器人对新物体的泛化能力,又结合大型语言模型和新视觉编码器,形成 RT-2(vision-language-action 模型)。

Octo 提出了跨不同观测和不同机器人动作的策略迁移微调方法。

RoboFlamingo 则在开源视觉语言模型 OpenFlamingo 上微调,使低性能平台也能有效训练机器人策略。

Vima 基于 Transformer,并在提示中加入目标的视觉裁剪图像,零样本泛化成功率可比同类方法高出 2.9 倍。

RT-H 先预测“动作语言”,再结合视觉信息输出机器人动作,更灵活且能对语言干预做出响应。

Openvla 基于 prismatic-vlm,包含 DINOv2、SigLIP 的视觉编码器与 Llama 2 语言模型,较 RT-2-X 成功率提升 16.5%,参数量减少 7 倍。

Hiveformer 整合自然语言指令、多视角场景观测与历史动作记录,在语言条件下的任务执行与泛化性能均显著提升。

GR-1 以 GPT 风格将语言指令、观测图像和机器人状态端到端映射为动作和未来图像预测。

Voxposer 借助大型语言模型编写代码,与视觉语言模型交互生成三维价值图,再配合基于模型的规划框架,实现无样本轨迹合成。

部分工作将语言指令视为目标(如将指令、目标图像、任务 ID 编码成隐式目标),并结合视觉感知与本体感知,通过模仿学习来提升成功率。

有研究将扩散策略下的单任务行为克隆方法拓展到多任务与语言条件场景,成功率平均提升约 33%。

基于语言的长时程动作策略

许多工作聚焦利用大型语言模型分解复杂任务。SayCan 将预训练技能与大型语言模型结合,Zero-Shot Planners 不需额外训练即可进行任务分解。

Text2Motion 在大型语言模型基础上利用技能库中的 Q 函数进行任务规划,实际性能优于多数同类方法。

有研究结合 GPT-4V 的视觉能力(如在任务规划阶段引入视觉信息),或提出 EmbodiedGPT 进行视觉与语言的多模态推理与规划。

Palm-e 利用单一预训练模型,通过包含语言和图像信息的提示实现跨任务泛化。TPVQA 则通过视觉语言模型检测执行成功与否,并将任务分解为子任务。

TaPA 让大型语言模型与视觉模型对齐,基于感知到的物体生成可执行计划序列;ViLaIn 通过接收符号规划器反馈来迭代优化问题描述;PG-InstructBLIP 将物理世界的视觉语言模型与大型语言模型结合,提升了需要物理概念推理的任务性能。

Model ision 借助 GPT-4V 对示例操作视频与语言指令进行符号化规划,能高效汲取演示经验。

ScreenAgent 指出仅靠任务规划难以应对复杂需求,Autotamp 则把自然语言描述转成中间任务表示,再用传统方法来求解任务与运动规划。

有研究通过大型语言模型的推理能力生成任务执行条件,指导动态运动基元执行长时程任务;Mutex 采用统一的跨模态任务规格策略学习架构;Octopus 借可执行代码连接高层规划与实际操作。

3d-vla 和 Grid 将 3D 场景信息纳入模型,LEO 则在 3D 世界中针对感知、推理、规划、行动做一体化设计,多种场景下表现出色。

Sayplan 将大型语言模型与 3D 场景图结合,用于大规模、长期任务规划,显示出较好的可扩展性。

仿真

高逼真的仿真环境可以为模型训练和评估提供安全、廉价、可控的测试场景。通过仿真,研究者能够精确设定环境条件并反复试验,从而优化模型性能,同时避免真实世界中训练可能出现的风险和高成本。

目前的仿真技术大致分为两类:

基于基础模拟的通用模拟器 (General Simulators Based on Foundational Simulations)

47d37f82dea3baaf372141ab834e60b2.png

基于真实世界场景/特定应用的模拟器与方法 (Simulators/Methods Based on Real-world Scenarios/Specific Applications)

a46884cc872020a66964dfcc0e4b1797.pngc46c5b996d28239ab0d3d2bd4778ccbd.png

03

多模态数据集综述

我们将首先介绍这类数据集的收集方法,然后分别概述主要的感知/交互任务数据集导航任务数据集,并指出其特点与局限。

数据集的收集方法

构建具身智能相关的数据集通常有两种途径:

真实世界收集:让带有物理实体的智能体在真实环境中执行任务,记录传感器数据和操作过程 。这种方法可以获得逼真的多模态数据,例如通过在实际场景中安装RGB相机、深度相机、IMU(惯性测量单元)、LiDAR、压力传感器、麦克风等,采集视觉、深度、力觉、音频等信息。真实数据具有高度的真实性和复杂性,但挑战在于:采集过程昂贵且耗时,并且可能出现视角遮挡传感缺失等问题 。例如,在人演示操作时,摄像头可能被操作者身体挡住导致部分动作未记录完整。针对这类问题,有研究引入SLAM(同步定位与建图)技术辅助跟踪,或利用多视角、多传感融合提高数据完整性。

仿真环境生成:另一类数据集是使用模拟器收集的,例如 Unity 和 Gazebo。这种方法能够快速生成大量多模态数据(例如图像、深度图、传感器数据等),同时提供对环境和任务变量的控制,从而促进模型训练。

感知与交互任务的数据集

为了推动机器人感知和交互能力的发展,近年来发布了许多多模态大规模数据集,涵盖各种机器人操作、环境和模态组合。这里介绍几项有代表性的资源:

Open X-Embodiment:由Google与多家机构合作推出的大规模多模态数据集,包含来自22种不同机器人的数据 。该数据集中,机器人在100万+个场景中执行了500多种技能、15万项任务,记录了丰富的模态信息,包括RGB图像、终端执行器轨迹、语言指令等。Open X-Embodiment共整合了60个子数据集(其中一些列于论文Table 5),为具身智能提供了前所未有的多样性资源 。它涵盖了从工业机械臂操作到家庭服务机器人的广泛数据,有助于训练通用型机器人模型。

RH20T:由方浩舒等人发布的数据集,包含超过11万段机器人的操作序列。其独特之处在于覆盖多种模态:视觉、力觉(力传感器)、音频、运动轨迹、示范视频以及自然语言指令 。这使得RH20T非常适合用于训练需要综合多传感信息的模型(例如,一边看相机画面一边根据力反馈调整动作)。丰富的模态也使模型有机会学到不同信号间的关联,提高对复杂交互的理解。

ManiWAV:一个利用特殊“掌中之耳”装置采集的人类示范数据集 。该装置将麦克风与工具相结合,在人类完成操作时同步记录音频和视觉反馈 。ManiWAV的数据可以用于从人类演示中学习机器人操作策略,尤其是当声音对于判断操作结果很重要时(例如倒液体、插拔器件的声音)。通过该数据集,模型能够捕获动作与声音的对应关系,从人示范直接学习操控策略。

ARIO:“一切机器人于一体”(All Robots in One)的数据集,由鹏城实验室构建,规模空前达到300万以上样本。ARIO的特点在于多来源融合:既包括真实平台(如Cobot Magic、Cloud Ginger等机器人)在真实环境采集的数据,又包含仿真平台(Habitat、MuJoCo、SeaWave等)生成的数据 。其数据类型丰富,既有图像、语言指令,又有触觉反馈和语音等,甚至还整合了Open X-Embodiment、RH20T、ManiWAV等其他数据集的转换数据 。可以说,ARIO尝试将不同平台、不同模态的大规模数据统一到一个框架下,为训练通用机器人模型提供了可能。

除了上述综合性数据集,不少数据集专注于特定场景或任务。例如CALVIN数据集聚焦机械臂在模拟家庭环境中的连续操作任务;Ego4D提供第一人称视角的大规模视频数据,对学习手部操作和人机交互很有价值;PHYSOBJECTS记录了人对物理环境的交互行为,适用于物理推理与操作学习。

具身感知与交互数据集概览

2b9634bffab2d24488f72ff998ce7aa9.png68390a218ec65d6a7209f5fdb33a3f49.png

导航任务的数据集

具身导航需要结合视觉环境和语言指令进行路径规划,因此相应数据集通常提供三维环境、导航轨迹以及语言描述等信息,并关注长距离、多步骤的任务。近年来的导航数据集着力提高任务复杂性和场景多样性,以推动模型在现实环境中的导航能力。其特点包括:提供长路径和复杂指令、涵盖室内外多样场景、支持训练大模型所需的大规模数据,以及配套的中间标注(如3D重建、深度、语义标签等)用于辅助训练 。

下表列出了主要的视觉-语言导航数据集和环境:

aba1dc6754626af5a1fb261b022c90db.png26eba20503596bf73a61479ae909cc4a.png0f703deb5ec5eced5222fbb25972e5a9.png

数据集正朝着更加多样和复杂的环境、更长程和自然的语言指令以及更综合的评测目标(导航+其他任务)发展。这些数据集为训练强大的导航大模型提供了土壤,但也凸显了挑战——模型需要在看不见的新环境中,根据长而复杂的指令自主探索,这对跨模态理解和决策提出了很高要求。

04

当前挑战与未来发展方向

当前主要挑战

跨模态对齐

如何让模型有效地对齐并融合不同模态的信息仍是基本难题。视觉、语言、动作等模态的数据分布和时序特性各不相同,缺乏良好的对齐会导致理解偏差或响应延迟。

在具身任务中,实现实时且精确的多模态对齐尤为关键。例如视觉-语言模型ReKep和视听模型SoundSpaces的成功都依赖于高效的跨模态对齐机制 。

未来需探索更鲁棒的融合方法,如新的对齐损失函数、跨模态注意力结构等,以保证模型在整合视觉、语言、声音等信息时一致且准确。

计算资源与效率

目前的EMLM往往参数规模庞大,训练和推理对算力和存储需求极高 。如何提升计算效率、降低能耗、加快推理速度是在实际部署中必须解决的问题。这需要从模型结构(模型压缩、蒸馏)、计算框架(分布式计算、硬件加速)等多方面入手。

当前大部分模型依赖高端GPU进行训练和推断,花费巨大且难以实时应用 。有研究尝试精简模型规模,例如OpenVLA仅用70亿参数就实现了多任务能力,但当需要处理更多模态(如激光雷达、音频、力觉、GPS等)来完成复杂任务时,不可避免地又会增加模型大小、延长响应时间 。

因此,在性能与效率之间寻找平衡、设计高效的模型架构是迫切挑战之一。

跨领域泛化

尽管多模态模型在特定数据集或领域表现优异,但能否推广到陌生环境和任务仍存疑 。目前许多具身大模型只针对限定任务集进行训练,如感知模型、交互模型和导航模型彼此独立,且能解决的任务范围相对固定,缺乏应对新任务的适应性。

如何提升模型的迁移学习适应能力是重要课题。例如,让一个在厨房操作训练的模型去应对户外修理任务,或让导航模型处理不同城市街景环境。这需要研究更通用的表示和学习范式,或通过元学习让模型掌握举一反三的本领。

时序与连续决策:

具身智能体必须处理动态连续的感知与决策流,这对模型理解和记忆时序信息提出了挑战 。

相比单步的图像或指令,现实任务涉及长序列的动作和变化:模型需要跟踪状态随时间的演化,并将过去的信息应用于当前决策。

现有模型在这方面仍不足,例如交互模型通常分为短视距策略(如R3M)和长视距策略(如PaLM-E)两类,而在导航领域缺乏专门面向长时连续导航的模型 。

未来需加强模型对序列数据的建模能力,可以借鉴视频理解中的时序模型、带记忆单元的架构,或通过强化学习让模型在长时间尺度上优化表现,使其在持续交互中保持一致的目标和灵活的响应。

数据多样性与标注成本

尽管已有许多数据集,但数据的多样性、规模和质量仍显不足。很多数据集集中于室内日常任务,传感器类型以摄像头为主。

要支持全面的具身智能,还需要更大规模、更多元的真实数据,包括室外场景更多传感模态(激光、声音、雷达、触觉等) 以及动态环境的数据 。此外,获取高质量标注(如精确的三维标签、详细的语言描述)代价很高。

数据匮乏会妨碍模型的泛化能力,未来工作应优先构建更大、更多样、标注更丰富的数据集 。这包括探索新的数据采集方式、利用生成模型合成训练数据,以及通过自监督减少对人工标注的依赖等。

安全与伦理问题:

在应用层面,EMLM进入实际领域如自动驾驶、医疗助手、家庭服务机器人,会引发安全性伦理挑战。模型需要保证决策的可靠与可解释,避免在实时决策中发生不可控行为。

另外,多模态模型可能继承训练数据中的偏见,造成不公或歧视性的结果。如何检测并纠正模型的偏见,如何建立对模型决策的监督与问责机制,是必不可少的环节。

随着EMLM在现实中承担更多任务,我们必须确保其行为符合安全规范和伦理原则,例如自动驾驶中的决策安全阈值、人机互动中的隐私和尊重等问题,都需要技术和政策层面的共同应对。

未来研究方向

展望未来,针对上述挑战和EMLM的发展趋势,论文提出了若干值得深入探索的方向:

跨模态预训练与微调

开发更高效的跨模态联合预训练策略,使模型能够一专多能。

理想情况下,一个模型经过多模态预训练后,可以不经大量重训就适用于从感知到决策的各种任务。这需要在训练目标和模型架构上做出改进,让不同模态在共享表示空间中协同学习,并能通过少量微调适配特定应用。未来研究可在更大规模的多模态数据上训练基础模型,并探索模块化微调等方式提高迁移效率。

自监督学习

减少对人工标注数据的依赖是重要方向。通过自监督或弱监督,让模型利用海量未标注数据学习有用表征,可以极大缓解数据瓶颈。例如,机器人可以通过在仿真环境中与环境交互自我生成训练信号,或者利用视频中时序一致性来学习感知表示。

自监督学习有望让模型获得更丰富的特征,从而更具适应性和可扩展性。近期视觉和语言模型中的自监督成功经验(如MAE、SimCLR等)可能在多模态具身领域发挥更大作用。

与强化学习融合

将多模态大模型与强化学习框架结合是很有前景的方向。多模态模型擅长感知和高层决策,而强化学习擅长通过试错学习序贯决策策略,将二者结合可以让具身智能体在感知-行动-反馈的闭环中不断改进。

例如,模型可以将观察到的视觉和语言输入转化为对环境的理解,再通过RL算法选择动作,并从环境反馈中更新多模态模型,使其更好地适应动态变化。这种整合有望赋予EMLM持续学习能力,在真实世界中越用越聪明。

端到端大模型

当前具身智能往往将感知、导航、交互拆分由不同模型处理,而未来的趋势是构建端到端的一体化大模型。即由单一模型完成从输入原始传感信息、理解指令到输出最终行动的整个过程。这样的端到端模型将大大简化系统复杂度,提高整体效率,并避免模块间信息不完备或不兼容的问题。

实现这一目标需要解决大规模模型训练的稳定性,以及确保模型决策的可控性和安全性。但一旦成功,端到端EMLM将能够以更简洁的方式处理复杂任务,向通用人工智能体迈进一大步。

e6668a8c41291e78b5777119ae5ac45.jpg



推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×