王鹤团队最新工作！解决VLA 模型多依赖单视角图像，缺乏精准几何信息的问题

文章核心观点 - 由Galbot、北京大学、香港大学等团队联合提出的StereoVLA模型，通过融合立体视觉的丰富几何线索，系统性解决了现有视觉-语言-动作模型因依赖单视角RGB图像而缺乏精准空间几何信息、难以满足高精度操纵需求的核心问题，为机器人精准操纵提供了全新解决方案 [1] 现有VLA模型的核心挑战 - 单模态视觉局限：现有解决方案中，手腕相机视野有限且易遮挡、增加碰撞风险；深度传感器对透明或镜面物体测量噪声大；多相机配置则增加硬件复杂度，且泛化性受相机姿态影响显著 [4][5] - 几何与语义融合难题：立体视觉虽能提供丰富空间线索，但现有VLA模型缺乏有效机制融合几何信息与语义理解，直接输入立体图像会因视角差异细微导致性能次优 [6] StereoVLA的技术架构 - 特征提取模块：创新性地融合立体视觉的几何线索与单视角的语义信息 [8] - 几何特征提取：基于FoundationStereo预训练模型，提取过滤后的代价体积作为几何特征源，该特征通过注意力混合代价过滤模块捕捉长程空间关联，且无需额外深度估计计算 [12] - 语义特征提取：利用SigLIP与DINOv2，仅对左视角图像进行处理，获取富含语义的视觉令牌 [12] - 特征融合策略：通过空间池化统一几何与语义特征的分辨率，采用通道维度拼接方式融合，生成兼具几何精度与语义丰富度的混合特征表示 [12] - 辅助训练任务：设计交互区域深度估计任务以强化模型细粒度空间感知能力 [8] - 聚焦交互区域：将采样范围限制在夹持器与目标物体的交互区域，引导模型关注关键空间细节 [12] - 度量深度预测：基于合成数据集的真实深度标签，训练模型预测交互区域内采样点的度量深度，提升操纵精度并加速模型收敛 [12] - 大规模数据支撑：构建多维度数据集以解决立体视觉VLA数据稀缺问题 [8] - 合成数据生成：利用MuJoCo与Isaac Sim生成500万条合成抓取-放置动作序列，渲染立体图像对 [12] - 语义增强数据：融入互联网规模接地数据集GRIT，新增2D边界框预测辅助任务 [12] - 数据多样性设计：生成三种不同随机化范围的数据集，覆盖15×10×15cm至150×50×60cm的空间变化 [12] StereoVLA的性能验证 - 核心任务性能突破：在真实世界三类关键任务中，StereoVLA显著优于现有基线模型 [10] - 通用操纵任务：包括常见物体抓取/放置、立方体堆叠等，成功率较基线提升明显 [13] - 条形物体抓取：针对0°、45°、90°三种方向的条形物体，实现近完美抓取成功率 [13] - 中小尺寸物体抓取：在1-2cm小型物体抓取任务中，以30.0%的成功率成为唯一有效模型，其他基线模型完全失败 [13] - 相机配置对比：在四种主流相机配置对比中，StereoVLA展现出最优的性能-鲁棒性平衡 [14] - 立体视觉配置在中、大姿态随机化场景下性能优势显著 [17] - 相比前+侧面配置，StereoVLA在大姿态随机化场景下成功率提升157%，且部署更简洁 [17] - 具体数据：在单视角配置下，SpatialVLA-D模型在小/中/大随机化场景成功率分别为24.6%、13.7%、6.8%；在前+手腕配置下，GraspVLA模型成功率分别为71.3%、63.4%、54.8%；在前+侧面配置下，GraspVLA模型成功率分别为82.5%、55.7%、24.1%；而StereoVLA在立体配置下成功率分别为79.3%、71.9%、61.3% [14] - 核心模块消融验证：通过系统消融实验验证各关键设计的必要性 [15] - 几何特征选择：过滤后的代价体积表现最优，较相关体积+语义特征的组合，成功率从54.0%提升至77.0% [18] - 语义特征作用：缺失语义特征时，模型抓取错误物体的概率显著增加，成功率平均下降20%以上 [18] - 深度估计策略：交互区域深度估计较全图像均匀采样，成功率提升18% [18] StereoVLA的局限与未来方向 - 图像分辨率限制：224×224分辨率对1-2cm小型物体的语义接地与定位精度不足 [18] - 长时程依赖缺失：当前模型未捕捉长时程时间依赖，难以应对复杂连续操纵任务 [18] - 多机器人适配：验证仅基于Franka机械臂，未来需扩展至人形机器人等多具身化场景 [18] - 特征提取优化：可探索更多立体视觉基础模型的适配，进一步提升几何特征质量 [18] StereoVLA的范式价值与行业影响 - StereoVLA的核心贡献在于首次将立体视觉系统融入VLA模型，并建立了“几何-语义融合-聚焦式辅助训练-鲁棒性验证”的完整技术链路 [16] - 其在条形物体、小型物体抓取等高精度任务中的突破，以及对相机姿态变化的强鲁棒性，为机器人操纵从实验室走向真实复杂场景提供了关键技术支撑，加速了通用自主机器人的落地进程 [16]