Workflow
扩散模型(Diffusion Models)
icon
搜索文档
多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案
机器之心· 2026-01-07 15:10
文章核心观点 - 研究团队提出了一种全新的生成式多模态推理范式,并发布了模型DiffThinker,该模型将推理过程重构为图像到图像的生成任务,在视觉空间中直接生成推理路径,从而在复杂的长程、视觉中心任务上实现了对现有顶尖多模态大模型的性能碾压 [2][3][24] 从「以文思考」到「以图思考」 - 传统多模态大模型依赖文本思维链进行推理,难以精确追踪视觉信息的变化,在处理长程任务时容易“看走眼” [2][9] - 近期的“Thinking with Image”范式虽能操作图像,但难以扩展到复杂长程任务,且多轮交互开销巨大 [3] - DiffThinker的核心理念是让推理回归视觉空间,基于Qwen-Image-Edit,配合Flow Matching训练,直接生成图像答案 [11] DiffThinker的四大核心特性 - **高效推理**:相比于多模态大模型动辄生成数千个Token的长思维链,DiffThinker在训练和推理效率上均表现出色,且准确率更高 [15] - **可控推理**:通过固定步数的欧拉求解器,能够以确定的计算预算完成推理,避免了多模态大模型输出长度不可预测、可能陷入死循环的问题 [17] - **原生并行推理**:扩散模型的优势使其能在视觉空间中同时探索多条潜在路径,并随着去噪过程逐步收敛到最优解,实现“边画边推理” [17] - **协同推理**:可与多模态大模型合作,由DiffThinker生成多个候选视觉解,再由多模态大模型进行逻辑验证,实验显示这种组合实现了“1+1>2”的性能超越 [18] 实验结果:碾压级的性能 - 研究团队在四个领域(序列规划、组合优化、约束满足、空间配置)的七大任务上进行了系统评测 [20][23] - DiffThinker在所有任务上的平均得分高达87.4,显著优于顶尖闭源模型:GPT-5(21.1)和Gemini-3-Flash(41.3)[20] - DiffThinker也大幅超越了经过相同数据微调的开源基线模型Qwen3-VL-32B(62.9)[20] - 具体性能提升表现为:相比GPT-5提升+314.2%,相比Gemini-3-Flash提升+111.6%,相比Qwen3-VL-32B基线提升+39.0% [3] 视频生成 vs 图像生成 - 团队开发了DiffThinker-Video版本,但实验发现其在推理准确率上反而不如图像生成模型,且推理时间增加了近一倍(从1.1秒增加到2.0秒)[22] - 这表明在当前算力与模型架构下,“以图思考”仍是比“以视频思考”更高效的路径 [22]
近500页史上最全扩散模型修炼宝典,一书覆盖三大主流视角
具身智能之心· 2025-10-30 08:03
书籍概述 - 书籍《The Principles of Diffusion Models》由来自Sony AI、OpenAI和斯坦福大学的团队编写,旨在系统梳理扩散模型的发展脉络与核心思想,为研究者和初学者提供可靠指南 [5] - 该书长达460多页,以严密的数学推导贯穿始终,主要面向具备深度学习基础或深度生成建模初步认识的研究人员、研究生及从业者 [9] - 书籍通过统一的数学框架串联了变分、得分与流等多种视角,探讨了扩散模型如何工作、为何有效以及未来发展方向 [6] 扩散模型核心原理 - 扩散模型将生成过程视为一种随时间逐步演化的变换,通过多阶段推理将粗略结构细化为精致细节,与传统生成模型直接学习噪声到数据的映射不同 [12] - 该领域存在三种主要互补的理论框架:变分方法、基于得分的方法和基于流的方法,它们都包含正向过程(逐步加噪)和反向过程(逐步去噪) [12][22] - 这三种视角在数学上等价,共同构成了扩散建模的统一理论图景,并可与变分自编码器、能量模型和归一化流等经典生成建模方法联系起来 [17][23] 模型加速与可控生成 - 通过分类器引导和无分类器引导等方法,可以在生成过程中根据用户定义的目标或属性进行条件控制,实现偏好对齐,提升生成的可控性 [29] - 采用先进的数值求解器可以在更少的反向积分步骤中近似模拟扩散反过程,从而显著降低计算成本,同时保持生成质量,实现高效快速采样 [29] - 基于蒸馏的方法训练学生模型模仿教师扩散模型的行为,能以显著更少的积分步数(甚至单步)重现采样轨迹,从根本上提升生成速度 [30] 下一代生成模型发展 - 流图模型族(如一致性模型、一致性轨迹模型、平均流)的兴起正在塑造下一代生成式人工智能 [15] - 从零开始学习常微分方程的解映射(流映射)的框架,允许模型直接将噪声映射为数据样本,或执行任意时刻间的跳跃式生成,消除了多步采样的时间瓶颈 [31][32] - 该方法旨在学习连接任意源分布与目标分布的流动过程,为端到端的快速生成系统提供了严谨的数学基础与可行的实现路径 [24]
无需训练让扩散模型提速2倍,上交大提出Token级缓存方案|ICLR‘25
量子位· 2025-02-28 13:19
文章核心观点 - Diffusion Transformer模型通过token粒度的缓存方法实现图像和视频生成模型上无需训练的两倍以上加速,上海交通大学等团队提出的Toca方法有效解决了Diffusion Transformers高计算成本问题,在多种模型上表现优异 [1][4] 背景 - 扩散模型在图像、视频生成等任务中性能出色,Diffusion Transformers扩展参数量和计算规模推动视觉生成领域发展,但面临高计算成本、推理速度慢的挑战 [5] - 研究者提出减少采样步数和加速去噪网络模型等加速方法,基于特征缓存的方法因无损加速、无需训练受工业界关注 [5] - 不同计算层及同层不同Token对缓存误差适应性不同,有必要将模型加速粒度细化到token级并筛选重要token [5] 核心贡献 - ToCa首次在DiT加速中引入token级缓存复用策略,并从误差积累与传播角度分析特征缓存方法 [7] - ToCa提出4种适用于不同情形的token selection策略,应用于多种最新模型实验证明其更优秀 [7] 研究动机 - 不同token特征缓存引入误差值及对模型输出影响差异大,需考虑token级特征缓存 - 复用策略 [8] 方法 计算流程 - Cache初始化:推理完整时间步,将各层特征放入cache [9] - 重要性得分计算:计算各token重要性得分,标记最低部分token为cache状态 [9] - 部分计算:对传入token执行正常计算得到输出 [10] - Cache更新:调出cache中token输出,更新计算得到的新输出,循环长度2 - 4个时间步,还设计了随层深度上升而衰减的计算比例 [11] 重要性得分计算 - ToCa基于4个不同方面计算重要性分数,实际应用中加权求和给出总得分 [13] 实验结果 图像生成模型 - ToCa在PixArt - alpha上相比其他加速方法和无加速原图对齐效果更佳,图 - 文对齐能力更好,FID - 30k和CLIP Score表现远超其他方法 [15][16] - ToCa在FLUX模型上生成质量佳,和原图基本无差异,在文字生成任务细节有差异,后续将研究,在FLUX上1.5倍加速,数值指标基本不变优于其他方法 [17][18] - ToCa在基础模型DiT上结果证明其优越性 [19] 视频生成模型 - 团队制作网页展示OpenSora上加速效果,将视频生成结果部分抽帧浏览 [20][21] - ToCa在VBench测试中远优于其他方法,取得2.36倍无损加速,在加速效果和生成质量上最优,大部分指标和原模型得分几乎相同 [21][22] 总结 - ToCa是首次从Token级实现扩散模型加速的方法,适配性强,在多种任务上表现佳,基于特征缓存的扩散模型加速方法值得进一步探索 [23]