音频在人形机器人感知中的关键作用
统计 阅读时间大约10分钟以上(4821字)

2025-09-29 音频在人形机器人感知中的关键作用

来源:人形机器人洞察研究
本文探讨了音频作为一种补充模式的潜在作用,并借鉴了自动驾驶汽车的经验,其中麦克风阵列可以检测非视距危险,例如紧急警报器。

作者:BTIResearch    出品:人形机器人洞察研究

视觉-语言-音频 (VLA) 模型旨在赋予人形机器人类似人类的感知能力。然而,音频常常被边缘化,而视觉和语言则备受青睐。本文探讨了音频作为一种补充模式的潜在作用,并借鉴了自动驾驶汽车的经验,其中麦克风阵列可以检测非视距危险,例如紧急警报器。

我们认为,虽然音频并非灵丹妙药,但它可以填补感知空白,并在遮挡严重的环境中提供稳健性。我们探讨了通过 Silencio 等去中心化平台进行众包音频数据收集的机遇与挑战,并提出了一个用于具身化人工智能的分层声音语料库。我们的目标并非将音频作为推动人形机器人应用的独立驱动力,而是将其作为多模态系统的实用补充,如果经过深思熟虑地开发,或许可以增强安全性、直觉性和适应性。

大型多模态模型擅长解读图像、处理语音命令以及进行自然语言推理。然而,它们感知非语言环境声音的能力仍未得到充分发展。人类依靠音频来完成一些微妙但重要的任务:例如,探测接近的脚步声、根据语调推断意图,或者区分安静的办公室和熙熙攘攘的咖啡馆。

对于人形机器人来说,忽视音频可能会带来感知盲点,而视觉和语言本身无法解决这些问题。然而,音频的相对重要性在不同领域有所不同。在家庭和服务环境中,音频可以增强安全性和用户交互。在工业或物流环境中,它可以帮助检测危险或定位指令。

自动驾驶汽车的经验教训

自动驾驶汽车的经验表明,单靠视觉和激光雷达可能会错过被遮挡的事件,例如紧急车辆。麦克风则增加了360度的声学“视野”。例如,Waymo 2017年在亚利桑那州钱德勒进行的测试建立了一个声音库,使车辆能够探测到视觉范围以外的警报声。这些系统不仅需要识别能力,还需要低于50毫秒延迟的快速定位。

XMAQUINA 的DEUS 实验室认为,利用去中心化、可扩展的音频数据收集技术具有巨大的价值。Silencio 等去中心化网络利用基于智能手机的去中心化物理基础设施网络 (DePIN) 来众包环境声音和物体相关声音,通过这样的网络,合作开发开放的综合音频数据集和强大的模型,赋予机器人类似人类的声学感知能力,将大有裨益。

本文概述了这些努力如何结合汽车音响系统的经验教训来解决音频在嵌入式人工智能中日益增长的作用。

为什么人形机器人需要耳朵

人形机器人已经使用麦克风进行语音到文本的处理,但它们对非语言声音信号(例如警报、环境提示或机械声音)的理解仍不发达。

强大的音频感知非常重要,原因有三:

非视距感知:警报器声、玻璃破碎声或工具掉落声等声音可以预示机器人视野范围之外的危险或事件,从而实现主动干预。在日常生活中,当机器人主人在另一个房间甚至不同楼层寻求帮助时,音频可以做出响应——就像用口哨吸引狗的注意力一样。

消除语言歧义:诸如“跟随鸣笛叉车”之类的指令将口语与声音提示联系起来,将语言与环境联系起来。自监督学习信号:视听对应提供了数百万个免费训练标签,因为共现的帧波形对形成了自然的对比示例。

不过,需要注意的是,并非所有应用都需要这些功能,在某些情况下,视觉传感器、雷达或触觉反馈可能比麦克风提供更可靠的输入。然而,如果我们的目标是让类人机器人对周围环境的感知更接近人类水平,那么开发强大的方法来解释和推理音频通道就至关重要。

自动驾驶汽车铺平了道路

Waymo 和其他公司早期的自动驾驶汽车原型表明,单靠视觉和激光雷达可能会错过被交通或建筑物遮挡的紧急车辆。麦克风提供了 360 度的声学“视场”。例如,Waymo 于 2017 年在亚利桑那州钱德勒进行的测试创建了一个声音库,使小型货车能够从两倍的视觉范围内探测到警报器,并估计其方向,从而做出决策waymo.com。这不仅需要识别,还需要在 50 毫秒以下的延迟内进行定位。

硬件课程。自动驾驶汽车麦克风必须承受恶劣环境——雨水、灰尘、道路盐和高压清洗机的冲击。博世的密封式MEMS麦克风胶囊安装在车身面板后方,利用内置神经滤波器将警报器与风噪或发动机噪音隔离开来(bosch.com)。

瑞萨电子演示了在车顶角落和保险杠处分布的子阵列,能够以低成本实现精确的三角测量(renesas.com)。算法和基准。学术研究支持行业研究成果。2021 年的一项研究使用两个低成本麦克风,实现了 99% 的警报器召回率和小于 10 米的定位误差(arxiv.org)。2025 年 MDPI Sensors 的一篇论文通过自适应波束成形和基于变压器的分类器(针对高速公路速度进行了优化)进一步推进了这一研究(mdpi.com)。US8K-AV 和 UrbanSound8K-AV 等开放数据集提供了带注释的街道级音频,用于训练嵌入式模型(pmc.ncbi.nlm.nih.gov)。

安全与监管。欧盟法规 2019/2144 规定,3 级及以上自动驾驶汽车必须通过声学方式检测紧急车辆。因此,音频在汽车应用中是法律和技术上的必需。在共享空间、人行道、仓库或医院中的人形机器人也可能面临类似的监管要求。

为人形机器人构建声音语料库

人形机器人,尤其是那些将在家中使用的机器人,将在杂乱、遮挡严重的环境中运行,在这些环境中,音频提示至关重要:橱柜后面的水壶发出的哨声、另一个房间的同事的呼叫声或发出危险信号的警报。

为车辆开发的传感器堆栈使汽车能够听到救护车的声音,也使机器人能够预测人类行为、将视线与扬声器对齐,或在视觉确认之前检测到危险。使机器人能够高效聆听的硬件已经非常成熟,并且随着成本的降低,硬件将继续改进。

然而,人形机器人公司必须开发自己的声音和音频体验数据集,以便为具身人工智能提供通用音频嵌入,利用迁移学习来加速开发。

方法。强大的音频感知能力对于人形机器人在动态、遮挡严重的环境中实现类似人类的态势感知至关重要。现有数据集(例如 AudioSet 的 632 类、200 万个音频片段的本体)为声音分类提供了广泛的基础,但由于空间元数据有限、以机器人为中心的事件稀疏以及对安全关键声音的覆盖不足,在机器人应用中仍显不足 ( research.google.com )。

为了解决这些差距,我们提出了一种针对具身人工智能模型量身定制的分层声音语料库,其规格旨在支持实时处理、空间定位和跨模式集成。拟议的分层语料库。该语料库分为三个层级,分别针对不同的机器人用例:通用环境感知、物体交互以及安全关键检测。下表概述了每个层级的范围、技术规格和示例声音。

A级:一般氛围

目的:为机器人提供其环境的情境感知,使其能够区分不同的环境(例如办公室与仓库)并适应环境噪声,从而提高语音识别能力。

规格:44.1 kHz 的单声道录音足以捕捉低复杂度的背景声音。片段时长范围为 5 至 60 秒,以反映持续的环境条件。标签包括环境类型(例如室内、室外、城市)和强度(例如 dB 级别)。

收集:利用来自不同环境的众包录音,并针对代表性不足的环境(例如建筑工地)添加合成噪声。

用例:医院里的机器人利用环境线索区分安静的病房和繁忙的大厅,并相应地调整其行为或音量。

B层:交互式对象

目的:使机器人能够识别产生独特声音的物体并进行交互,将语言指令(例如“拿起嗡嗡作响的电话”)融入声音提示中。

规格:48 kHz 立体声录音,24 位深度,可捕捉空间线索,用于基本定位。1-10 秒的片段与特定物体的短事件对齐。元数据包括物体姿态(相对位置)和距离(例如 0.5-5 米),以支持视听对应。

收集:使用配备立体声麦克风的机器人平台,在受控环境(例如实验室、家庭)中记录互动。充分利用来自不同场景的众包录音。

用例:机器人听到水壶的嘶嘶声,将其定位在柜台后面,并推断它需要注意,与用户“检查炉子”的命令一致。

C 级:安全关键

目的:使机器人能够检测并响应紧急事件,例如警报或人类遇险,即使在嘈杂或遮挡的环境中也能以高精度和低延迟进行。

规格:48 kHz、24 位深度的四通道录音,可通过波束成形和三角测量技术实现精确的声音定位。1-5 秒的片段聚焦于瞬时关键事件。元数据包括方位角(方位角和仰角),以及(如适用)速度(例如,用于接近警报器)。

采集:需要专用的配备多麦克风阵列的录音设备,并部署在实际场景中。此层级的数据量可能比其他层级少得多。受控模拟可以补充爆炸等罕见事件的数据。

用例:仓库中的机器人听到烟雾警报,将其定位到特定的过道,并导航以协助或警告人类工人,即使没有视觉确认。

挑战与解决方案

多样性:声学环境会因室内声学、天气或文化因素(例如,混响走廊与开放街道)而差异巨大。解决方案:收集全球不同地区的数据,并使用增强技术(例如,添加混响、多普勒频移)来模拟变化。与国际研究团队合作,扩大地理覆盖范围。

可扩展性:由于需要可控的高风险场景,收集和注释 C 级数据需要大量资源。解决方案:采用开源共享模型,例如 UrbanSound8K-AV,从学术界和行业合作伙伴那里获取众包贡献。开发自动化注释流程,以减少人工工作量。

隐私:录音可能会捕获敏感信息,例如语音或私人对话。解决方案:实施匿名化技术,包括语音加扰、频谱屏蔽或过滤人类语音。遵守 GDPR、CCPA 和其他数据保护法规,确保在公共或私人场所录音时获得知情同意。

质量控制:录音质量不一致或标签错误会降低模型性能。解决方案:标准化录音协议(例如麦克风位置、采样率),并在人工监督的同时使用自动质量检查(例如信噪比分析)。

基于智能手机的 DePIN 是一种强大的收集方法

对于 A 级(一般氛围)和 B 级(交互对象),智能手机提供了一种可扩展且经济高效的解决方案,可以通过去中心化物理基础设施网络 (DePIN) 众包音频数据。Silencio 等项目最初旨在捕捉环境噪声水平,展示了基于智能手机的 DePIN 在收集多样化、可地理定位的音频数据集方面的潜力。通过升级此类平台,我们可以创建一个全球性的去中心化音频语料库,这对于开发用于人形机器人的稳健 VLA 模型至关重要。

为什么是智能手机和 DePIN?

无处不在:全球超过 60 亿部智能手机提供了庞大的分布式传感器网络,能够在不同环境(例如家庭、办公室、公共场所)中捕捉音频,而无需专门的硬件。

内置传感器:现代智能手机配备高品质麦克风(通常为 44.1-48 kHz,立体声)、用于地理定位的 GPS 以及用于获取上下文元数据(例如,静止与移动)的加速度计。这些传感器为 A 层和 B 层提供了丰富的上下文感知数据集。

去中心化激励:DePIN 平台通过基于代币的奖励或其他游戏化机制激励用户贡献数据,从而确保可扩展性和用户参与度。Silencio 的噪声级贡献奖励模型可以扩展,涵盖基于事件且带有空间元数据的音频片段。

潜在实施

平台升级:增强现有的 DePIN 应用(例如 Silencio),使其支持结构化音频采集。新增功能,允许用户录制短片段(A 级 5-60 秒,B 级 1-10 秒),并添加位置、时间和设备方向等元数据。集成用户友好的界面,用于标记声音(例如“咖啡馆闲聊”、“关门声”)或确认自动标记。

数据规范:采集 44.1-48 kHz 的单声道或立体声音频,比特率 16-24 位,符合 A 级和 B 级要求。采集的元数据包括 GPS 坐标、环境光强度(通过手机传感器获取)以及用户提供的上下文信息(例如,“在繁忙的商场录制”)。对于 B 级,鼓励用户录制特定物体的声音,并给出大致的距离估计(例如,“1 米外手机嗡嗡作响”)。

质量保证:实施自动筛选,剔除低质量录音(例如,音频过短、背景噪音过大)。使用机器学习对声音进行预分类,并标记异常值以供人工审核。奖励贡献高质量音频的用户,以维护数据集的完整性。

隐私保护:在数据上传前进行实时匿名化处理(例如,通过谱减法去除语音成分)。将地理位置匿名化至粗略区域(例如,城市级别),并征得用户同意,确保符合当地数据法规。

用例示例。圣保罗的一位用户使用 DePIN 应用程序记录了 30 秒的街道交通(A 级)和 5 秒的自行车铃声片段(B 级)。该应用程序将交通片段标记为“城市,白天,巴西”,将铃声片段标记为“2 米距离,室外”。这些来自全球数千名用户的贡献,构成了一个多样化的数据集,用于训练机器人识别不同文化和环境下的周围环境和物体交互。

优于传统方法

规模:DePIN 拥有数百万用户,远远超出了基于机器人或静态阵列收集的范围。

成本:智能手机无需部署专用硬件,从而大大降低了成本。

多样性:全球用户参与确保覆盖从农村到城市、从室内到室外的各种声学环境。

实时更新:持续的数据收集使语料库保持最新,捕捉季节性或特定事件的声音(例如,假日市场、建筑高峰)。

挑战与缓解措施

数据偏差:用户人口统计数据(例如,城市人口、技术娴熟人群)可能会扭曲数据集。缓解措施:通过与非政府组织或地方政府合作,将数据覆盖范围扩大到代表性不足的地区和人群。

硬件不一致:智能手机麦克风质量参差不齐。缓解措施:将录音标准化为标准格式,并在预处理过程中根据已知设备配置文件进行校准。

用户参与:持续参与需要激励。缓解:根据数据质量和频率提供分级奖励,并整合游戏化或小额支付。

与 C 层集成。虽然智能手机是 A 级和 B 级的理想选择,但 C 级(安全关键型)则需要可控的高保真录音,并包含精确的空间元数据。DePIN 仍然可以通过收集补充数据(例如用户录制的城市警报声)来间接地为预训练模型做出贡献,然后使用来自专业设备的专用多通道录音对模型进行微调。

结论

自动驾驶汽车已证明,在视觉不足的情况下,音频能够显著提升安全性。人形机器人也可能受益,尽管紧迫性和监管驱动因素尚未到位。音频应被视为增强稳健性的补充方式。

通过 Silencio 等平台进行去中心化数据收集可以降低 A 级和 B 级数据集的门槛。Silencio 的 DePIN 平台可以通过数百万部智能手机众包多样化、可地理定位的音景,从而彻底改变音频数据收集方式,从而弥补 AudioSet 等数据集缺乏空间元数据和以机器人为中心的事件的局限性。

未来的工作重点应包括:扩展语料库,引入全球多样化的录音,优化低延迟架构,以及部署坚固耐用、经济高效的硬件,例如车规级 MEMS 麦克风。在汽车行业先例的启发和去中心化创新的推动下,各方携手合作,将推动这一愿景不断向前发展。

内容来源:https://www.xmaquina.io/blog/the-critical-role-of-audio-in-humanoid-robot-perception

9a3102091ea9d5818a4ec82f5a63886.jpg

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×