VGGT模型
搜索文档
机器人感知大升级!轻量化注入几何先验,成功率提升31%
量子位· 2025-09-28 19:54
技术方案核心 - 提出一种名为Evo-0的轻量化方法,旨在增强视觉语言动作模型的三维空间理解能力,无需依赖显式深度输入或额外传感器[4] - 该方法利用视觉几何基础模型从多视角RGB图像中隐式提取三维结构信息,并将其融合到原有视觉语言模型中[4] - 通过一个交叉注意力融合模块,将二维视觉标记作为查询,三维几何标记作为键/值,实现二维与三维表征的融合[6] 性能表现 - 在RLBench仿真实验中,Evo-0在5个需要精细操作的任务上,平均成功率超过基线pi0模型15%,超过openvla-oft模型31%[5] - 在真实机器人操作任务中,Evo-0在全部5个任务上均超越基线模型pi0,平均成功率提升28.88%,达到57.41%[12][13] - 在训练效率方面,仅用15,000步训练的Evo-0模型性能已超过用20,000步训练的pi0模型[8] 鲁棒性评估 - 在五类干扰条件下的鲁棒性评估中,Evo-0表现出优于基准模型的稳定性[14] - 在存在未见过的干扰物体时,Evo-0的抓取正确率达到100%,整体正确率为70%,显著高于基准的60%和20%[15] - 在背景颜色变化、目标位置/高度变化以及相机视角变化等多种干扰条件下,Evo-0的性能均优于或等于基准模型[15] 行业意义 - 该方法通过绕过深度估计误差与传感器需求,以插件形式增强视觉语言动作模型的空间建模能力[18] - 该技术方案具有训练高效和部署灵活的特点,为通用机器人策略的发展提供了新的可行路径[18]