刚刚!全球最大双机械臂数据开源!
统计 阅读时间大约8分钟(3076字)

2025-12-02 刚刚!全球最大双机械臂数据开源!

来源:具身智能大讲堂
一个高质量、大规模的基准数据集。

作者:李鑫    出品:具身智能大讲堂

在制造业流水线的精密装配、家庭场景中的家务协助、物流仓库的货物分拣等实际应用中,双机械臂协同操作是机器人实现类人灵巧动作的核心能力。然而长期以来,由于不同机器人硬件平台存在巨大差异,适配多机型的大规模双机械臂数据集严重稀缺,成为制约该领域发展的关键瓶颈。

b48f77f8992eac757fa7b8fa6a07062a.png

近日由北京智源研究院牵头,联合蚂蚁天玑实验室、银河通用、乐聚、软通天擎、松灵、星海图、智平方、睿尔曼等产业先锋,以及清华大学、北京大学、斯坦福、伯克利、剑桥 等海内外顶尖学术力量,共同打造并发布了RoboCOIN(Bimanual Robotic Data COllection for INtegrated Manipulation) ——全球“本体数最多、标注最精细、使用最便捷”的高质量双臂机器人真机数据集。

4a3df7037993aa095d00b27695878db3.png

该数据集包含了涵盖15种不同类型的机器人平台,包含18万+条操作轨迹、421项细分任务和16个真实应用场景,更配套了完整的CoRobot数据处理框架,目前已完全开源。

1►RoboCOIN数据集:15台异构机器人+ 18万轨迹+ 421项细分任务

RoboCOIN的核心优势在于其多机型覆盖、全场景覆盖和结构化标注,构建了一个近乎"全能"的双机械臂训练数据生态。

41ddf5b513d39c7a5ee26b2111b1b0ab.png

在硬件平台方面,该数据集一口气囊括了15种不同形态的机器人,涵盖双机械臂机器人、半人形机器人和人形机器人三大类别。

5490732dff6c372bcc3883906eaa0f44.png

RoboCOIN的数据采集平台

其中既有配备6自由度手臂和并行夹持器的Agilex Cobot Magic,也有搭载7自由度手臂和灵巧手的Unitree G1 edu-u3人形机器人,还有支持外骨骼和虚拟现实遥控的Realman RMC-AIDA-L半人形机器人。这些机器人配备了头部、手腕、胸部甚至背部等多视角摄像头,能够同步采集RGB图像、深度信息以及关节角度、末端执行器姿态等运动学数据,确保数据的丰富性和完整性。

8db1a2ba4e1352231f0f2e2558372ca8.png

RoboCOIN数据集采集所用的机器人平台

数据规模更是创下新高,累计采集了超过18万条操作演示轨迹,覆盖421项细分任务和16个典型应用场景。场景涵盖住宅、商业和工作三大领域,其中住宅场景占比47.1%,包含厨房、客厅、儿童房等贴近日常生活的环境;商业场景占18.6%,涵盖餐厅、收费站等;工作场景占34.3%,包括工厂、仓库、实验室等。这种多场景设置让机器人能够学习到不同环境下的操作差异,大幅提升泛化能力。

87e2f7b950377bc5880e15ca3d67a3f7.png

RoboCOIN数据集包含以下核心内容:(a)15种不同类型的机器人平台,涵盖双机械臂机器人、半人形机器人及人形机器人,部分配备夹爪或灵巧手;(b)多样化的环境场景,包括居家、商业及工作场景;(c)36种动作类型,这些动作按协作程度进行分类;(d)432种物体类型,涵盖刚性物体、铰接物体及可变形物体三大类别。

任务设计上,RoboCOIN采用二维分类法,既按双臂协作程度分为低协作到高协作任务,又按物体特性分为刚性物体、铰接物体和可变形物体操作任务。从简单的"将毛巾放入篮子",到复杂的"传递碗具并关闭抽屉",再到精细的"抓取葡萄并放置到盘子里"等任务,全面覆盖了双机械臂操作的各类场景,满足从基础技能到高级能力的阶梯式训练需求。

值得一提的是,所有数据均通过人类遥控操作采集,避免了脚本生成数据的机械性,同时通过时间戳对齐技术,确保视觉观测与运动学状态的精准同步,为模型训练提供了高质量的数据基础。

2►三级标注体系:让机器人"懂策略"还能"精执行"

传统数据集大多仅提供动作轨迹数据,机器人只能机械模仿,无法理解任务的内在逻辑。而RoboCOIN构建的三级标注体系,让机器人掌握全局任务策略的同时,也能精准控制每一个细微动作。

902b2a1765ccc0e17cddba4c42df8454.png

RoboCOIN框架提出了一套层级化能力金字塔标注体系,该体系分为三个层级:(a)轨迹级标注,用于定义全局概念与任务目标;(b)段级标注,将整体任务拆解为可执行的子任务;(c)帧级标注,提供密集的底层细节信息,例如运动轨迹、夹爪状态等。所有标注均通过时间戳实现同步,共同构成一个完整连贯的数据结构。

最顶层是轨迹级标注,主要描述任务的全局概念和目标。这部分包含场景描述,比如"白色桌子上放着一个篮子和一个粉色桃子,篮子在左,桃子在右",以及物体属性标注,如桃子的颜色、形状、材质等。这种标注为机器人提供了全局的空间认知和任务目标,帮助其理解"要做什么"和"在什么环境下做"。

中间层是段级标注,将复杂任务拆解为可执行的子任务。以"将桃子放入篮子"为例,会拆解为"左手移动靠近桃子""右手准备承接""左手抓起桃子""右手接过桃子放入篮子"等一系列步骤,还会标注抓取失败等异常情况。这种结构化拆解让机器人能够学习任务的逻辑流程,掌握"怎么做"的分步策略,同时提升对异常情况的处理能力。

103605ea99f0cd35ed00e7b870ffc1cd.png

机器人操纵领域现有真实世界数据集对比

最底层是帧级标注,提供毫秒级的精细运动学信息。针对每一个视频帧,标注出机械臂的运动方向、速度、加速度,以及夹持器的开合状态等细节。比如"左臂快速向下移动,夹持器打开""右臂缓慢上升,夹持器闭合"等。这些高密度数据为机器人提供了精准的动作参考,确保其能够完成"精准执行"的要求。

3►配套CoRobot框架:开箱即用,降低机器人学习门槛

为了让海量数据和复杂标注能够被便捷使用,研究团队同步开发了CoRobot集成数据处理框架,包含三大核心工具,真正实现了"开箱即用"。

726aa6417c8399edbfc5abdd456f3fad.png

CoRobot数据处理框架概况,(a)机器人轨迹标记语言(RTML):用于实现轨迹的自动化验证。(b)半自动化标注工具链:用于生成丰富且具备层级结构的任务描述信息。(c)开箱即用的集成机器人平台:可实现机器人的统一控制及多形态数据管理。

其中,机器人轨迹标记语言(RTML) 是保障数据质量的关键。由于人类操作员的技术水平和操作习惯存在差异,采集到的原始数据中难免混入不稳定、低质量的轨迹。RTML通过YAML格式定义了全局约束和阶段约束,比如运动速度上限、工作空间边界、动作持续时间等,能够自动检测并过滤不符合标准的轨迹。实验显示,该工具平均可剔除35.3%的低质量数据,尤其能有效减少抓取阶段的失误和速度违规问题。

9efd51eff1e28f550fde58ac835d84a5.png

模型架构(a)视觉语言动作(VLA)基准模型(b)层级化标注整合(HAI):在推理阶段,HAI会通过人类指令融入层级化标注信息,同时结合阶段变化检测与状态历史总结自动生成实时上下文——整个过程无需修改模型原有的架构与参数。

半自动化标注工具链 则大幅提升了数据标注效率。它整合了视觉语言模型和规则化工具,轨迹级标注可通过目标检测结合大语言模型自动生成场景描述;段级标注由工具自动识别关键帧后人工微调;帧级标注通过滑动窗口量化运动状态并匹配预设标签。这种人机协同的标注方式,在保证标注准确性的同时,极大降低了人工成本。

统一机器人平台 基于LeRobot开发,解决了多机型兼容难题。它整合了不同品牌机器人的官方SDK,支持通过ROS进行通用控制,同时支持段级和帧级文本标注的精细化处理。更实用的是其原子存储策略,可将数据集按机型、任务、环境等维度拆分为最小子集,用户可按需组合下载,避免了大规模数据集的冗余下载负担。目前,用户只需通过pip install robocoin命令,即可快速部署使用该框架。

4►实测验证:任务成功率最高提升50%,跨平台适配能力突出

为验证RoboCOIN的实际效果,研究团队在Realman RMC-AIDA-L半人形机器人和Unitree G1 edu-u3人形机器人上,对π₀和GR00T-N1.5两款主流视觉语言动作模型进行了测试,结果十分显著。

095413c3aa9c9fbe852625296fd83463.png

Realman RMC-AIDA-L + π0的实验任务设计与结果。该实验采用统一的任务设计方案(左侧所示),实验结果(右侧所示)呈现了π0模型在融入层级化标注整合(HAI)与未融入HAI两种情况下的任务成功率。

在层级化标注整合(HAI)的测试中,简单任务"将毛巾放入篮子"的成功率从80%提升至90%;而难度较高的"将桃子放入抽屉并关闭"任务,成功率更是从20%飙升至70%,提升幅度达50%。这充分证明,层级化标注能够帮助模型更好地理解任务逻辑,大幅提升复杂场景下的操作能力。

f1c4fa882f43f12707e96eff643fc83b.png

RTML对数据质量与模型性能的影响

在RTML数据过滤的测试中,对比了四种训练配置:原始数据训练、全局约束过滤数据训练、全局+阶段约束过滤数据训练,以及过滤后融合高质量跨任务轨迹训练。结果显示,完整启用RTML过滤并融合优质数据的模型,比使用原始数据的模型成功率提升了23%,其中阶段约束过滤对提升效果的贡献尤为明显。

值得注意的是,这些性能提升并未改变原有模型的网络结构和核心参数,仅通过数据优化和标注信息整合实现,这意味着该数据集可以无缝适配现有主流机器人学习框架,具备极强的实用性和兼容性。

5►结语与未来:

RoboCOIN的开源发布,不仅为机器人研究界提供了一个高质量、大规模的基准数据集,更构建了一套从数据采集、质量控制、标注处理到模型训练的完整解决方案。与现有数据集相比,它在多机型覆盖、层级化标注和开源可用性上具有不可替代的优势,有望成为双机械臂操纵领域的标杆数据集。

论文地址:arxiv.org/abs/2511.17441

项目地址:flagopen.github.io/RoboCOIN/

01490c5d99569026d6280c02865a8737.jpg

推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×
右键可直接复制图片
×