CVPR 2026｜清华联合美团推出3DThinker，首个用3D意象思考的工作

行业技术背景与问题 - 当前多模态大模型在空间理解任务上表现较弱，其核心原因在于缺乏对图像中隐含几何信息的提取能力，限制了模型对三维场景布局的想象和推理能力 [2][4] - 此前提升模型空间理解能力的方法主要分为两类：一是依赖纯文本或二维视觉线索的强推理，但往往需要繁琐的数据标注；二是通过引入深度图、点云等先验信息进行输入增强，但依赖于外部工具，并非模型的内蕴能力 [6] 核心技术创新 - 清华大学与美团研究团队联合推出了3DThinker，这是首个3D版的“think with image”框架，旨在让模型内蕴地“想象”三维场景 [3] - 该框架提出了一种全新思路，在无需3D标注（如点云）和外部工具的情况下，通过在模型生成推理链时自动插入一段紧凑的隐变量（3D latent），作为其内部构建的三维场景表征 [8] - 核心思路是采用二段式学习：第一阶段通过监督训练，将预训练的3D基础模型（VGGT）的特征蒸馏到模型推理路径中，实现从二维数据提取几何信息；第二阶段通过强化学习，在仅有结果信号的情况下优化包含3D意象的整个采样轨迹 [9][10] 技术实现细节 - 在第一阶段监督训练中，构造了携带3D特殊标记的思维链数据，并设计了双重损失函数：一项用于保证3D latent表征与VGGT特征的对齐，另一项是文本交叉熵损失以保证自然语言的连贯性 [13][14][15] - 在第二阶段强化学习中，设计了一个3D latent对齐的奖励机制，确保在优化采样轨迹时不会丢失几何表达能力 [17][18] 性能评估结果 - 在MindCube-Tiny基准测试上，3DThinker相比基础模型整体性能提升了51.8%到108.8%；在Ego3D-Bench基准上，提升了18.1%到36.9% [20] - 以Qwen2.5-VL-3B基础模型为例，在监督训练阶段，其性能（62.7）超过了需要认知图标注的方法（60.8），即提升了+1.9个百分点；加入强化学习后，性能进一步提升至75.2，相比之前的强化学习方法（70.7）提升了+4.5个百分点 [21][22] - 在更全面的测试基准上，以Qwen2.5-VL-3B为基础的3DThinker相比之前的SOTA方法提升了+10.8个百分点（从49.6到60.4）；以Qwen2.5-VL-7B为基础的版本则提升了+16.3个百分点（从48.4到64.7） [23][24] 模型附加价值与影响 - 3DThinker具备一定程度的可解释性，其生成的3D latent可以通过设计的投影器恢复出3D表示，使得模型推理过程不再完全是“黑盒” [25] - 该研究找到了一条“无监督蒸馏”的路径，无需昂贵的3D标注数据或外部深度传感器，让模型在推理中自发构建三维场景，这种“思维即几何”的设计哲学复刻了人类的空间认知本能，为视觉语言模型的推理打开了新思路，并可能推动能真正“看懂”物理世界的AI发展 [27]