扩散模型(Diffusion Models)
搜索文档
近500页史上最全扩散模型修炼宝典,一书覆盖三大主流视角
具身智能之心· 2025-10-30 08:03
书籍概述 - 书籍《The Principles of Diffusion Models》由来自Sony AI、OpenAI和斯坦福大学的团队编写,旨在系统梳理扩散模型的发展脉络与核心思想,为研究者和初学者提供可靠指南 [5] - 该书长达460多页,以严密的数学推导贯穿始终,主要面向具备深度学习基础或深度生成建模初步认识的研究人员、研究生及从业者 [9] - 书籍通过统一的数学框架串联了变分、得分与流等多种视角,探讨了扩散模型如何工作、为何有效以及未来发展方向 [6] 扩散模型核心原理 - 扩散模型将生成过程视为一种随时间逐步演化的变换,通过多阶段推理将粗略结构细化为精致细节,与传统生成模型直接学习噪声到数据的映射不同 [12] - 该领域存在三种主要互补的理论框架:变分方法、基于得分的方法和基于流的方法,它们都包含正向过程(逐步加噪)和反向过程(逐步去噪) [12][22] - 这三种视角在数学上等价,共同构成了扩散建模的统一理论图景,并可与变分自编码器、能量模型和归一化流等经典生成建模方法联系起来 [17][23] 模型加速与可控生成 - 通过分类器引导和无分类器引导等方法,可以在生成过程中根据用户定义的目标或属性进行条件控制,实现偏好对齐,提升生成的可控性 [29] - 采用先进的数值求解器可以在更少的反向积分步骤中近似模拟扩散反过程,从而显著降低计算成本,同时保持生成质量,实现高效快速采样 [29] - 基于蒸馏的方法训练学生模型模仿教师扩散模型的行为,能以显著更少的积分步数(甚至单步)重现采样轨迹,从根本上提升生成速度 [30] 下一代生成模型发展 - 流图模型族(如一致性模型、一致性轨迹模型、平均流)的兴起正在塑造下一代生成式人工智能 [15] - 从零开始学习常微分方程的解映射(流映射)的框架,允许模型直接将噪声映射为数据样本,或执行任意时刻间的跳跃式生成,消除了多步采样的时间瓶颈 [31][32] - 该方法旨在学习连接任意源分布与目标分布的流动过程,为端到端的快速生成系统提供了严谨的数学基础与可行的实现路径 [24]
无需训练让扩散模型提速2倍,上交大提出Token级缓存方案|ICLR‘25
量子位· 2025-02-28 13:19
文章核心观点 - Diffusion Transformer模型通过token粒度的缓存方法实现图像和视频生成模型上无需训练的两倍以上加速,上海交通大学等团队提出的Toca方法有效解决了Diffusion Transformers高计算成本问题,在多种模型上表现优异 [1][4] 背景 - 扩散模型在图像、视频生成等任务中性能出色,Diffusion Transformers扩展参数量和计算规模推动视觉生成领域发展,但面临高计算成本、推理速度慢的挑战 [5] - 研究者提出减少采样步数和加速去噪网络模型等加速方法,基于特征缓存的方法因无损加速、无需训练受工业界关注 [5] - 不同计算层及同层不同Token对缓存误差适应性不同,有必要将模型加速粒度细化到token级并筛选重要token [5] 核心贡献 - ToCa首次在DiT加速中引入token级缓存复用策略,并从误差积累与传播角度分析特征缓存方法 [7] - ToCa提出4种适用于不同情形的token selection策略,应用于多种最新模型实验证明其更优秀 [7] 研究动机 - 不同token特征缓存引入误差值及对模型输出影响差异大,需考虑token级特征缓存 - 复用策略 [8] 方法 计算流程 - Cache初始化:推理完整时间步,将各层特征放入cache [9] - 重要性得分计算:计算各token重要性得分,标记最低部分token为cache状态 [9] - 部分计算:对传入token执行正常计算得到输出 [10] - Cache更新:调出cache中token输出,更新计算得到的新输出,循环长度2 - 4个时间步,还设计了随层深度上升而衰减的计算比例 [11] 重要性得分计算 - ToCa基于4个不同方面计算重要性分数,实际应用中加权求和给出总得分 [13] 实验结果 图像生成模型 - ToCa在PixArt - alpha上相比其他加速方法和无加速原图对齐效果更佳,图 - 文对齐能力更好,FID - 30k和CLIP Score表现远超其他方法 [15][16] - ToCa在FLUX模型上生成质量佳,和原图基本无差异,在文字生成任务细节有差异,后续将研究,在FLUX上1.5倍加速,数值指标基本不变优于其他方法 [17][18] - ToCa在基础模型DiT上结果证明其优越性 [19] 视频生成模型 - 团队制作网页展示OpenSora上加速效果,将视频生成结果部分抽帧浏览 [20][21] - ToCa在VBench测试中远优于其他方法,取得2.36倍无损加速,在加速效果和生成质量上最优,大部分指标和原模型得分几乎相同 [21][22] 总结 - ToCa是首次从Token级实现扩散模型加速的方法,适配性强,在多种任务上表现佳,基于特征缓存的扩散模型加速方法值得进一步探索 [23]