三维视觉学习
搜索文档
Meta蔡志鹏新作VLM³:全面揭示三维视觉的Bitter Lesson
机器之心· 2026-06-09 13:30
文章核心观点 - Meta公司发布的研究工作VLM³证明,标准的视觉语言模型架构配合规模化数据,是解决三维视觉任务的最简单有效范式,无需针对特定任务设计复杂架构、损失函数或数据增强 [1][9] - 该方法在多项三维视觉任务上达到或超越了专家视觉模型的性能,同时大幅领先于其他先进的视觉语言模型,颠覆了传统三维视觉学习范式 [5][7][17] 研究背景与问题 - 当前先进的视觉语言模型在语义理解等任务上表现优异,但在三维视觉任务上表现不佳 [2] - 专家视觉模型凭借专门设计,在绝对深度估计等三维理解任务上已达到超越人类的精度 [2][4] - 这引出了核心问题:视觉语言模型是否无法在三维视觉学习上替代专家模型 [5] 研究方法与设计 - VLM³采用极简设计,仅需对标准视觉语言模型进行两项归一化处理:相机焦距归一化和像素空间归一化 [7] - 该方法无需改变视觉语言模型的基础架构,也无需在图像上渲染标记,仅使用标准架构和基于文字的监督微调训练 [9] - 研究推翻了传统认知,表明无需依赖回归也能学会精细的三维理解 [10] 性能表现与对比 **对比其他视觉语言模型** - 在单目深度估计任务上,将DepthLM的准确率从84提升至90 [12] - 在目标级三维理解任务上,使用相同训练数据超越SpatialRGPT,且模型参数少一半(4B vs 8B) [13] - 在多视角几何任务上,如像素匹配及相机姿态估计,远超Qwen3-vl-32B模型 [14] - 具体数据:在单目深度估计的Average指标上,Ours-4b达到0.904,显著高于DepthLM-7B的0.838和Qwen3-vl-72B的0.219 [15] - 在目标级三维理解的Overall准确率上,Ours-4b达到91.35,高于SpatialRGPT-8B的89.80和Qwen3-vl-32B的76.98 [15] - 在像素匹配的平均端点误差上,Ours-4b为15.37,远低于Qwen3-vl-32B的160.27 [15] - 在相机姿态估计的平均AUC@30°上,Ours-4b为94.0,远高于Qwen3-vl-32B的7.8 [15] **对比专家视觉模型** - 在单目深度估计任务上,匹配了UniDepthV2及MoGe-2的性能 [5][7] - 在像素匹配任务上,超越了DKM和RoMa [5][7] - 在相机姿态估计任务上,匹配了DA3,并超越了VGGT [5][7] - 具体数据:在单目深度估计的DDAD数据集上,Ours-4b为0.818,与UniDepthV2的0.882和MoGe-2的0.856相近 [16] - 在相机姿态估计的平均AUC@30°上,Ours-4b为94.0,与DA3-GIANT的94.6相近,高于VGGT的88.0 [16] 研究意义与影响 - 揭示了三维视觉学习的“苦涩教训”:规模化数据与通用模型架构是关键,人为的特定任务设计并非必需 [1][9] - 使得三维视觉学习能够融入视觉语言模型的大规模预训练框架,实现与其他视觉任务的兼容,并能遵循类似的缩放定律 [9][17] - 为在机器人、自动驾驶、增强现实等场景中构建统一的多模态推理系统提供了新的可能性 [19]