行业技术背景与问题 - 当前多模态大模型在空间理解任务上表现较弱,其核心原因在于缺乏对图像中隐含几何信息的提取能力,限制了模型对三维场景布局的想象和推理能力 [2][4] - 此前提升模型空间理解能力的方法主要分为两类:一是依赖纯文本或二维视觉线索的强推理,但往往需要繁琐的数据标注;二是通过引入深度图、点云等先验信息进行输入增强,但依赖于外部工具,并非模型的内蕴能力 [6] 核心技术创新 - 清华大学与美团研究团队联合推出了3DThinker,这是首个3D版的“think with image”框架,旨在让模型内蕴地“想象”三维场景 [3] - 该框架提出了一种全新思路,在无需3D标注(如点云)和外部工具的情况下,通过在模型生成推理链时自动插入一段紧凑的隐变量(3D latent),作为其内部构建的三维场景表征 [8] - 核心思路是采用二段式学习:第一阶段通过监督训练,将预训练的3D基础模型(VGGT)的特征蒸馏到模型推理路径中,实现从二维数据提取几何信息;第二阶段通过强化学习,在仅有结果信号的情况下优化包含3D意象的整个采样轨迹 [9][10] 技术实现细节 - 在第一阶段监督训练中,构造了携带3D特殊标记的思维链数据,并设计了双重损失函数:一项用于保证3D latent表征与VGGT特征的对齐,另一项是文本交叉熵损失以保证自然语言的连贯性 [13][14][15] - 在第二阶段强化学习中,设计了一个3D latent对齐的奖励机制,确保在优化采样轨迹时不会丢失几何表达能力 [17][18] 性能评估结果 - 在MindCube-Tiny基准测试上,3DThinker相比基础模型整体性能提升了51.8%到108.8%;在Ego3D-Bench基准上,提升了18.1%到36.9% [20] - 以Qwen2.5-VL-3B基础模型为例,在监督训练阶段,其性能(62.7)超过了需要认知图标注的方法(60.8),即提升了+1.9个百分点;加入强化学习后,性能进一步提升至75.2,相比之前的强化学习方法(70.7)提升了+4.5个百分点 [21][22] - 在更全面的测试基准上,以Qwen2.5-VL-3B为基础的3DThinker相比之前的SOTA方法提升了+10.8个百分点(从49.6到60.4);以Qwen2.5-VL-7B为基础的版本则提升了+16.3个百分点(从48.4到64.7) [23][24] 模型附加价值与影响 - 3DThinker具备一定程度的可解释性,其生成的3D latent可以通过设计的投影器恢复出3D表示,使得模型推理过程不再完全是“黑盒” [25] - 该研究找到了一条“无监督蒸馏”的路径,无需昂贵的3D标注数据或外部深度传感器,让模型在推理中自发构建三维场景,这种“思维即几何”的设计哲学复刻了人类的空间认知本能,为视觉语言模型的推理打开了新思路,并可能推动能真正“看懂”物理世界的AI发展 [27]
CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作
机器之心·2026-03-11 08:08