立体视觉
搜索文档
王鹤团队最新!解决VLA 模型缺乏精准几何信息的问题
具身智能之心· 2026-01-05 09:03
文章核心观点 - StereoVLA模型通过创新性地融合立体视觉的几何线索与语义理解,系统性解决了现有视觉-语言-动作模型在空间感知精度上的核心不足,为机器人高精度操纵提供了全新解决方案 [1] 问题根源:VLA模型空间感知的挑战 - **单模态视觉局限**:现有方案如手腕相机视野有限且易遮挡,深度传感器对透明或镜面物体噪声大,多相机配置则增加硬件复杂度且泛化性受相机姿态影响显著 [4][5] - **几何与语义融合难题**:立体视觉能提供丰富空间线索,但现有VLA模型缺乏有效机制融合几何信息与语义理解,直接输入立体图像会因视角细微差异导致性能次优 [6] 方案设计:StereoVLA的三层技术架构 - **第一层:特征提取模块** - 几何特征提取:基于FoundationStereo预训练模型,提取过滤后的代价体积作为几何特征源,通过注意力混合代价过滤模块捕捉长程空间关联,无需额外深度估计计算 [12] - 语义特征提取:利用SigLIP和DINOv2模型仅对左视角图像进行处理,获取富含语义的视觉令牌,以解决立体视觉模型语义信息不足的问题 [12] - 特征融合策略:通过空间池化统一分辨率,采用通道维度拼接方式融合几何与语义特征,生成兼具几何精度与语义丰富度的混合特征表示 [12] - **第二层:辅助训练任务** - 聚焦交互区域:将采样范围限制在通过物体2D边界框定位的夹持器与目标物体交互区域,引导模型关注关键空间细节 [12] - 度量深度预测:基于合成数据集的真实深度标签,训练模型预测交互区域内采样点的度量深度,以提升操纵精度并加速模型收敛,且不增加推理计算负担 [12] - **第三层:大规模数据支撑** - 合成数据生成:利用MuJoCo与Isaac Sim生成500万条合成抓取-放置动作序列,渲染立体图像对,相机参数在真实Zed Mini相机参数的5%范围内随机化 [12] - 语义增强数据:融入互联网规模接地数据集GRIT,新增2D边界框预测辅助任务以提升模型语义接地能力 [12] - 数据多样性设计:生成三种不同随机化范围的数据集,覆盖15×10×15cm至150×50×60cm的空间变化,以验证相机姿态鲁棒性 [12] 验证逻辑:全面性能验证 - **核心任务性能突破** - 通用操纵任务:在常见物体抓取/放置、立方体堆叠等任务中,成功率较基线模型提升明显 [13] - 条形物体抓取:针对0°、45°、90°三种朝向的条形物体,实现近完美抓取成功率,解决了长轴视觉重叠导致的定位难题 [13] - 中小尺寸物体抓取:在1-2cm小型物体抓取任务中,以30.0%的成功率成为唯一有效模型,其他基线模型完全失败 [13] - **相机配置对比** - 在四种主流相机配置对比中,StereoVLA展现出最优的性能-鲁棒性平衡 [14] - 立体视觉配置在中、大姿态随机化场景下性能优势显著,较其他配置降低了相机姿态变化对操纵的影响 [17] - 相比前+侧面相机配置,StereoVLA在大姿态随机化场景下成功率提升157%,且部署更简洁,无需多相机校准 [17] - **核心模块消融验证** - 几何特征选择:过滤后的代价体积表现最优,较相关体积加语义特征的组合,成功率从54.0%提升至77.0% [15][18] - 语义特征作用:缺失语义特征时,模型抓取错误物体的概率显著增加,成功率平均下降20%以上 [15][18] - 深度估计策略:交互区域深度估计较全图像均匀采样,成功率提升18%,且避免了背景信息干扰 [18] 局限与未来方向 - 图像分辨率限制:当前224×224分辨率对1-2cm小型物体的语义接地与定位精度不足,需在高分辨率与计算成本间寻求平衡 [18] - 长时程依赖缺失:当前模型未捕捉长时程时间依赖,难以应对复杂连续操纵任务 [18] - 多机器人适配:验证仅基于Franka机械臂,未来需扩展至人形机器人等多具身化场景 [18] - 特征提取优化:可探索更多立体视觉基础模型的适配,以进一步提升几何特征质量 [18] StereoVLA的范式价值与行业影响 - 该模型的核心贡献在于首次将立体视觉系统融入VLA模型,并建立了“几何-语义融合-聚焦式辅助训练-鲁棒性验证”的完整技术链路 [16] - 其在条形物体、小型物体抓取等高精度任务中的突破,以及对相机姿态变化的强鲁棒性,为机器人操纵从实验室走向真实复杂场景提供了关键技术支撑 [16]