具身研习社 12月19日消息,Dexmal原力灵机提出一种全新的VLA框架 GeoVLA,它在保留现有视觉-语言模型(VLM)的预训练能力的同时,采用了一种优雅的双流架构(Dual-path Architecture)。
具体而言,GeoVLA 在保留 VLM强大的语义理解能力的同时,引入专用的点云嵌入网络 PEN 和空间感知动作专家3DAE,直接利用深度图生成的点云数据,赋予机器人真正的三维几何感知能力。