天大&清华最新!GeoVLA:增强VLA模型的3D特征提取能力,鲁棒提升明显(SOTA)
具身智能之心·2025-08-15 08:05
作者丨 Lin Sun等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 出发点&写在前面 VLA模型已成为一种很有前景的方法,能使机器人遵循语言指令并预测相应动作。然而,当前的VLA模型主要依赖2D视觉输入,忽略了3D物理世界中丰富的几 何信息,这限制了它们的空间感知能力和适应性。这里提出了GeoVLA,一种新颖的VLA框架,它有效地整合3D信息以推进机器人操作。该框架使用视觉-语言 模型(VLM)处理图像和语言指令,提取融合的视觉-语言embedding。同时,它将深度图转换为点云,并采用一种定制的点编码器(称为点embedding网络)独 立生成3D几何embedding。然后,这些生成的embedding被拼接起来,由空间感知动作专家(称为3D增强动作专家)处理,该专家结合来自不同传感器模态的信 息以生成精确的动作序列。 通过在模拟和真实世界环境中的大量实验,GeoVLA展示了卓越的性能和鲁棒性。它在LIBERO和ManiSkill2模拟 ...