多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案
机器之心·2026-01-07 15:10

文章核心观点 - 研究团队提出了一种全新的生成式多模态推理范式,并发布了模型DiffThinker,该模型将推理过程重构为图像到图像的生成任务,在视觉空间中直接生成推理路径,从而在复杂的长程、视觉中心任务上实现了对现有顶尖多模态大模型的性能碾压 [2][3][24] 从「以文思考」到「以图思考」 - 传统多模态大模型依赖文本思维链进行推理,难以精确追踪视觉信息的变化,在处理长程任务时容易“看走眼” [2][9] - 近期的“Thinking with Image”范式虽能操作图像,但难以扩展到复杂长程任务,且多轮交互开销巨大 [3] - DiffThinker的核心理念是让推理回归视觉空间,基于Qwen-Image-Edit,配合Flow Matching训练,直接生成图像答案 [11] DiffThinker的四大核心特性 - 高效推理:相比于多模态大模型动辄生成数千个Token的长思维链,DiffThinker在训练和推理效率上均表现出色,且准确率更高 [15] - 可控推理:通过固定步数的欧拉求解器,能够以确定的计算预算完成推理,避免了多模态大模型输出长度不可预测、可能陷入死循环的问题 [17] - 原生并行推理:扩散模型的优势使其能在视觉空间中同时探索多条潜在路径,并随着去噪过程逐步收敛到最优解,实现“边画边推理” [17] - 协同推理:可与多模态大模型合作,由DiffThinker生成多个候选视觉解,再由多模态大模型进行逻辑验证,实验显示这种组合实现了“1+1>2”的性能超越 [18] 实验结果:碾压级的性能 - 研究团队在四个领域(序列规划、组合优化、约束满足、空间配置)的七大任务上进行了系统评测 [20][23] - DiffThinker在所有任务上的平均得分高达87.4,显著优于顶尖闭源模型:GPT-5(21.1)和Gemini-3-Flash(41.3)[20] - DiffThinker也大幅超越了经过相同数据微调的开源基线模型Qwen3-VL-32B(62.9)[20] - 具体性能提升表现为:相比GPT-5提升+314.2%,相比Gemini-3-Flash提升+111.6%,相比Qwen3-VL-32B基线提升+39.0% [3] 视频生成 vs 图像生成 - 团队开发了DiffThinker-Video版本,但实验发现其在推理准确率上反而不如图像生成模型,且推理时间增加了近一倍(从1.1秒增加到2.0秒)[22] - 这表明在当前算力与模型架构下,“以图思考”仍是比“以视频思考”更高效的路径 [22]