阅读时间大约10分钟以上(4056字)
出品:具身释界
如果一个机器人站在桌子左边,它可能只能看到苹果和一个蓝色方块;另一个机器人站在桌子右边,可能能看到草莓和另外两个蓝色方块。
这时候,如果任务是:
“抓取离草莓最远的蓝色方块,并把它放到红色方块上。”
单个机器人很可能会懵。
因为它看到的只是局部画面:
有的物体被挡住了,有的参考物不在视野里,有的蓝色方块看起来很像,根本无法判断哪个才是目标。
但如果多个机器人能把各自看到的画面合起来,事情就不一样了。
这篇论文 《Ego to World: Collaborative Spatial Reasoning in Embodied Systems via Reinforcement Learning》 关注的正是这个问题:
机器人能不能从多个第一视角出发,拼出一个更完整的世界理解?
换句话说,模型不只是要回答:
我这个视角里有什么?
而是要进一步理解:
多个机器人看到的局部信息合起来,真实世界里到底是什么样?
为什么单视角不够?

Figure 1 很直观地展示了这篇论文的核心动机。
图中有多个机器人,每个机器人都有自己的 ego-centric view,也就是第一视角画面。任务是抓取“离草莓最远的蓝色方块”。
但是从单个视角来看,这个任务很难完成。
比如:
一个视角里,蓝色方块可能被汉堡挡住了;
另一个视角里,只能看到最近的蓝色方块;
还有一个视角里,可能根本看不到草莓。
也就是说,每个机器人都只掌握了一部分信息。
如果只看单个视角,模型很容易判断错误。
但如果把多个视角结合起来,模型就可以利用不同视角中的重叠物体作为参照,比如汉堡、草莓、红色方块等,逐步推理出完整的空间关系。
这就是论文强调的 cross-view spatial reasoning: 模型需要在多个视角之间建立联系,判断哪些物体是同一个,哪些信息是互补的,最后形成一个更接近真实世界的空间理解。
这也是标题里 Ego to World 的意思:
从每个机器人的局部自我视角,走向一个全局的世界理解。
论文提出了一个新 benchmark:E2W-Bench
为了系统评估这种能力,作者提出了一个新的 benchmark,叫 Ego-to-World Benchmark,简称 E2W-Bench。

Figure 2 展示了 E2W-Bench 的整体结构。
在这个 benchmark 里,多个机器人从不同角度观察同一个场景,然后模型需要根据这些局部视角完成任务。
E2W-Bench 主要包含三类任务。
第一类是 Counting。
模型需要根据多个视角统计某类物体的总数。
这听起来很简单,但在多视角场景里并不容易。
因为同一个物体可能同时出现在两个机器人的画面中。
如果模型无法判断“这两个视角里的苹果其实是同一个苹果”,就会重复计数。
所以 Counting 任务考察的不是简单数数,而是模型能不能进行跨视角的物体匹配。
第二类是 Location Reasoning。
这类任务要求模型推理物体之间的位置关系。
有些物体可能从来没有同时出现在同一个视角里,但它们可以通过共同参照物建立联系。
比如 A 视角里能看到苹果和香蕉,B 视角里能看到香蕉和草莓,那么模型就需要利用香蕉作为中间锚点,推理苹果和草莓之间的空间关系。
这类任务更强调多视角组合推理能力。
第三类是 Grasping。
这是最接近机器人操作的任务。
模型不只是要理解目标物体是谁,还要输出某个机器人视角下的 2D 抓取坐标。
也就是说,模型最后要回答的不是一句话,而是:
机器人应该在图像中的哪个位置抓?
这个任务把语言理解、跨视角推理和机器人操作直接连接起来。
论文中提到,E2W-Bench 包含大规模仿真数据和真实世界数据,覆盖超过 1.5 万个场景和 50 多类物体。这样的设计让它不仅能测试模型会不会“看图回答”,还可以测试模型能不能真正把多个局部视角融合成可操作的空间理解。
方法:CoRL,让 VLM 学会协作空间推理
为了提升模型在 E2W-Bench 上的表现,作者提出了一个训练框架,叫 CoRL:Collaborative Spatial Reasoning Reinforcement Learning。

Figure 3 是整篇论文最关键的方法图。
CoRL 的训练分成两个阶段。
第一个阶段是 Chain-of-Thought Supervised Fine-Tuning,也就是带推理过程的监督微调。
简单来说,作者先给模型提供一些带有推理步骤的数据,让模型学习如何一步一步分析多视角画面。
例如模型需要学会:
哪些物体在不同视角中重复出现;
哪些物体可以作为参照物;
当前任务真正要找的目标是什么;
最后应该输出文本答案还是抓取坐标。
这一步相当于先教模型“怎么想”。
如果没有这个阶段,直接上强化学习,模型很容易因为任务太复杂而学不动。
第二个阶段是 Reinforcement Learning Fine-Tuning。
在这个阶段,模型会对同一个问题生成多个候选回答,然后通过奖励函数判断哪些回答更好,再不断优化自己的策略。
论文使用的是 GRPO,Group Relative Policy Optimization。 可以简单理解为:模型不是孤立地看一个回答好不好,而是把同一组候选回答放在一起比较,看哪个回答相对更好,从而让训练更加稳定。
关键设计:CVSR,不只奖励答案,还奖励推理过程
CoRL 最核心的地方,是作者设计了一个专门用于多视角空间推理的奖励函数: Cross-View Spatial Reward,简称 CVSR。
普通的奖励函数可能只看最终答案对不对。
但这篇论文认为,对于多视角机器人任务来说,只看最终答案是不够的。
因为模型可能答案碰巧对了,但中间并没有真正理解空间关系。
所以 CVSR 同时奖励三个方面。
第一个是 Grounding Reward。
模型在推理时需要指出关键物体的位置,比如用 bounding box 标出来。
如果模型提到“草莓”“蓝色方块”“红色方块”,那它就应该真的在图像中找到这些物体。
这可以防止模型只是在语言上编造推理,而没有真正看图。
第二个是 Overlap Reward。
这个奖励关注的是:模型能不能判断哪些物体在多个视角里重复出现。
这对跨视角推理非常关键。
比如两个机器人都看到了同一个苹果,模型需要知道这是同一个物体,而不是两个苹果。
如果模型连这一点都做不到,后面的计数、位置推理和抓取都会出问题。
第三个是 Answer Reward。
最后,模型的最终答案仍然要正确。
对于 Counting 和 Location Reasoning,答案需要和标准答案一致。
对于 Grasping,模型预测的坐标要尽量接近真实抓取点。
所以 CVSR 的作用可以总结成一句话:
它不只是让模型答对,而是让模型学会“看得准、对得上、合得起来”。
看得准,是指能把物体正确 ground 到图像中。
对得上,是指能识别不同视角中的同一个物体。
合得起来,是指能把多个局部观察融合成完整的空间理解。
实验结果:CoRL 明显超过通用 VLM

Table 1 展示了 CoRL 在 E2W-Bench 上的主要实验结果。
作者比较了闭源模型、开源模型,以及基于 Qwen2.5-VL 训练出来的不同版本。
从结果可以看到,直接拿强大的通用 VLM 来做这个任务,效果并不理想。
例如 GPT-5 在 reasoning 任务上的平均准确率是 54.50%,在 perception / grasping 任务上的平均分是 31.23。
相比之下,CoRL-7B 在 reasoning 任务上的平均准确率达到 82.67%,在 perception / grasping 任务上的平均分达到 70.01。
这说明一个很重要的问题:
通用 VLM 虽然很强,但它并不天然擅长多机器人、多视角、可操作的空间推理。
尤其是抓取任务,模型不仅要理解语言,还要输出精确坐标。
这对普通 VLM 来说是很难的。
而 CoRL 通过专门的数据、推理监督和强化学习奖励,让模型在这个任务上获得了明显提升。
为什么不能直接 RL?SFT 很重要
论文还比较了不同训练方式。
一个很有意思的结果是:
如果直接从零开始做 RL,也就是论文里的 RL-ZERO,效果并不好。
这说明在这种复杂多视角任务里,强化学习并不是万能的。
模型需要先通过 SFT 学会基本的推理模式,比如怎么识别物体、怎么连接不同视角、怎么组织推理过程。
有了这个基础之后,RL 才能进一步优化模型,让它更准确地完成任务。
所以这篇论文的方法不是简单地说“RL 很强”,而是强调:
SFT 负责打基础,RL 负责进一步对齐任务目标。
这个思路其实也很符合当前很多 reasoning model 的训练趋势:
先让模型学会基本推理,再用奖励信号强化更好的推理路径。
CVSR 的每个部分都重要

Table 2 是 CVSR 的消融实验。
作者分别去掉 Answer Reward、Grounding Reward、Overlap Reward 和 Format Reward,观察模型性能变化。
结果可以看到,去掉任何一个部分都会导致性能下降。
尤其是去掉 Answer Reward 后,E2W-1 的准确率从 61.0% 掉到 10.5%,说明最终答案监督仍然非常关键。
去掉 Grounding Reward 后,抓取任务分数明显下降,说明物体定位对机器人操作非常重要。
去掉 Overlap Reward 后,Counting 和 Location Reasoning 也下降,说明跨视角物体匹配是多视角推理的核心能力。
这说明 CVSR 并不是一个简单的“答案对不对”奖励,而是一个围绕多视角理解设计的组合奖励。
它同时约束模型的视觉定位、跨视角一致性和最终任务完成度。
多个第一视角,竟然比单个全局视角更好?

Table 3 里有一个很有意思的发现:
多个 ego-centric views 的效果,明显好于单个 global view。
这可能有点反直觉。
我们可能会觉得,一个全局俯视摄像头能看到整个桌面,信息应该最完整。
但实验结果显示,并不是这样。
例如在 E2W-2 的仿真任务上,7B 模型使用 single-view 的准确率是 54.0%,而使用 multi-view 可以达到 97.0%。
为什么会这样?
因为全局视角虽然覆盖范围大,但它往往距离远、细节少,而且容易受到透视畸变和遮挡影响。
相反,多个机器人从近距离观察物体,可以提供更丰富的局部几何细节。
也就是说,单个全局视角像是在远处看全景;
多个第一视角则像是几个人从不同角度靠近观察,再把信息拼起来。
对于复杂空间关系来说,后者反而更有价值。
这对未来多机器人系统也有启发:
相比于依赖一个固定的全局摄像头,分布式、多视角、可移动的感知系统可能更适合真实环境中的机器人协作。
真实机器人实验:从推理到抓取

论文最后还做了真实机器人实验。
实验平台包括两个 Franka Research 3 机械臂和一个 Realman 移动平台,每个机器人都配有 RealSense D435 RGB-D 相机。
不过需要注意的是,模型本身只接收 RGB 图像和自然语言指令。
它不会直接读取深度信息,也不会直接使用相机标定参数。
模型输出的是某个机器人视角中的 2D 坐标。
之后系统再利用深度图和相机参数,把这个 2D 点转换成真实世界中的 3D 抓取位置,交给机器人执行。
论文测试了两个真实任务。
第一个任务是:
抓取离草莓最远的蓝色方块,并放到红色方块上。
第二个任务是:
抓取和香蕉对齐的杨桃,并放到红色方块上。
结果显示,CoRL-7B 在第一个任务上成功率为 65%,第二个任务上成功率为 30%。
而 RoboPoint 在两个任务上的成功率都是 0%。
这说明 CoRL 学到的跨视角推理能力,确实可以迁移到真实机器人操作中。
当然,论文也提到,目前失败的主要原因不是模型完全推理错了,而是坐标预测还不够精确。
有时候模型能找到正确目标区域,但预测点落在物体边缘,导致抓取失败。
这也说明后续还有很大的优化空间,比如更精细的 grounding、更高分辨率的坐标预测,或者结合更稳定的抓取规划模块。
这篇论文的意义
这篇论文最重要的地方,不只是提出了一个新 benchmark 或一个新训练框架。
更关键的是,它把 embodied AI 中的空间理解问题,从单个机器人视角推进到了多个机器人协作视角。
过去很多 VLM / VLA 模型关注的是:
一个机器人看到图像后,应该怎么回答或行动?
而这篇论文关注的是:
多个机器人看到不同局部画面后,如何共同理解同一个世界?
这其实更接近真实机器人系统。
在家庭、工厂、仓库、自动驾驶和多机器人协作场景中,单个传感器往往是不够的。
不同机器人、不同摄像头、不同视角之间的信息融合,会变得越来越重要。
E2W-Bench 提供了一个测试这种能力的平台。
CoRL 则提供了一种训练模型的方法,让 VLM 不只是“看图说话”,而是学会跨视角对齐、空间推理和可执行的目标定位。
总结
简单来说,这篇论文想解决的问题是:
多个机器人各自只能看到局部画面时,模型如何把这些局部信息拼成一个完整的世界理解?
作者提出了 E2W-Bench,用 Counting、Location Reasoning 和 Grasping 三类任务测试模型的跨视角空间推理能力。
同时,作者提出 CoRL 框架,通过 CoT-SFT 和强化学习,让模型逐步学会从多个 ego-centric views 中进行协作推理。
其中最关键的是 CVSR 奖励函数。
它不只关注最终答案,还关注物体 grounding、跨视角重叠识别和最终任务完成度。
实验结果表明,CoRL 明显超过通用闭源和开源 VLM,并且可以迁移到真实机器人抓取任务中。
如果用一句话概括这篇论文:
它让 VLM 从“我看到了什么”,进一步走向“我们共同看到的世界是什么”。
这可能也是未来多机器人系统走向真实复杂环境时,非常重要的一步。
