视觉语言模型 - 财报，业绩电话会，研报，新闻

视觉语言模型

搜索文档

机器之心· 2026-06-09 13:30

文章核心观点 - Meta公司发布的研究工作VLM³证明，标准的视觉语言模型架构配合规模化数据，是解决三维视觉任务的最简单有效范式，无需针对特定任务设计复杂架构、损失函数或数据增强 [1][9] - 该方法在多项三维视觉任务上达到或超越了专家视觉模型的性能，同时大幅领先于其他先进的视觉语言模型，颠覆了传统三维视觉学习范式 [5][7][17] 研究背景与问题 - 当前先进的视觉语言模型在语义理解等任务上表现优异，但在三维视觉任务上表现不佳 [2] - 专家视觉模型凭借专门设计，在绝对深度估计等三维理解任务上已达到超越人类的精度 [2][4] - 这引出了核心问题：视觉语言模型是否无法在三维视觉学习上替代专家模型 [5] 研究方法与设计 - VLM³采用极简设计，仅需对标准视觉语言模型进行两项归一化处理：相机焦距归一化和像素空间归一化 [7] - 该方法无需改变视觉语言模型的基础架构，也无需在图像上渲染标记，仅使用标准架构和基于文字的监督微调训练 [9] - 研究推翻了传统认知，表明无需依赖回归也能学会精细的三维理解 [10] 性能表现与对比 **对比其他视觉语言模型** - 在单目深度估计任务上，将DepthLM的准确率从84提升至90 [12] - 在目标级三维理解任务上，使用相同训练数据超越SpatialRGPT，且模型参数少一半（4B vs 8B） [13] - 在多视角几何任务上，如像素匹配及相机姿态估计，远超Qwen3-vl-32B模型 [14] - 具体数据：在单目深度估计的Average指标上，Ours-4b达到0.904，显著高于DepthLM-7B的0.838和Qwen3-vl-72B的0.219 [15] - 在目标级三维理解的Overall准确率上，Ours-4b达到91.35，高于SpatialRGPT-8B的89.80和Qwen3-vl-32B的76.98 [15] - 在像素匹配的平均端点误差上，Ours-4b为15.37，远低于Qwen3-vl-32B的160.27 [15] - 在相机姿态估计的平均AUC@30°上，Ours-4b为94.0，远高于Qwen3-vl-32B的7.8 [15] **对比专家视觉模型** - 在单目深度估计任务上，匹配了UniDepthV2及MoGe-2的性能 [5][7] - 在像素匹配任务上，超越了DKM和RoMa [5][7] - 在相机姿态估计任务上，匹配了DA3，并超越了VGGT [5][7] - 具体数据：在单目深度估计的DDAD数据集上，Ours-4b为0.818，与UniDepthV2的0.882和MoGe-2的0.856相近 [16] - 在相机姿态估计的平均AUC@30°上，Ours-4b为94.0，与DA3-GIANT的94.6相近，高于VGGT的88.0 [16] 研究意义与影响 - 揭示了三维视觉学习的“苦涩教训”：规模化数据与通用模型架构是关键，人为的特定任务设计并非必需 [1][9] - 使得三维视觉学习能够融入视觉语言模型的大规模预训练框架，实现与其他视觉任务的兼容，并能遵循类似的缩放定律 [9][17] - 为在机器人、自动驾驶、增强现实等场景中构建统一的多模态推理系统提供了新的可能性 [19]

Meta Platforms(US:META)

三维视觉学习

视觉语言模型

Artificial Intelligence

VLM³

三维视觉学习

视觉语言模型

Artificial Intelligence

VLM³