Workflow
Diffusion Transformer模型
icon
搜索文档
无需训练让扩散模型提速2倍,上交大提出Token级缓存方案|ICLR‘25
量子位· 2025-02-28 13:19
文章核心观点 - Diffusion Transformer模型通过token粒度的缓存方法实现图像和视频生成模型上无需训练的两倍以上加速,上海交通大学等团队提出的Toca方法有效解决了Diffusion Transformers高计算成本问题,在多种模型上表现优异 [1][4] 背景 - 扩散模型在图像、视频生成等任务中性能出色,Diffusion Transformers扩展参数量和计算规模推动视觉生成领域发展,但面临高计算成本、推理速度慢的挑战 [5] - 研究者提出减少采样步数和加速去噪网络模型等加速方法,基于特征缓存的方法因无损加速、无需训练受工业界关注 [5] - 不同计算层及同层不同Token对缓存误差适应性不同,有必要将模型加速粒度细化到token级并筛选重要token [5] 核心贡献 - ToCa首次在DiT加速中引入token级缓存复用策略,并从误差积累与传播角度分析特征缓存方法 [7] - ToCa提出4种适用于不同情形的token selection策略,应用于多种最新模型实验证明其更优秀 [7] 研究动机 - 不同token特征缓存引入误差值及对模型输出影响差异大,需考虑token级特征缓存 - 复用策略 [8] 方法 计算流程 - Cache初始化:推理完整时间步,将各层特征放入cache [9] - 重要性得分计算:计算各token重要性得分,标记最低部分token为cache状态 [9] - 部分计算:对传入token执行正常计算得到输出 [10] - Cache更新:调出cache中token输出,更新计算得到的新输出,循环长度2 - 4个时间步,还设计了随层深度上升而衰减的计算比例 [11] 重要性得分计算 - ToCa基于4个不同方面计算重要性分数,实际应用中加权求和给出总得分 [13] 实验结果 图像生成模型 - ToCa在PixArt - alpha上相比其他加速方法和无加速原图对齐效果更佳,图 - 文对齐能力更好,FID - 30k和CLIP Score表现远超其他方法 [15][16] - ToCa在FLUX模型上生成质量佳,和原图基本无差异,在文字生成任务细节有差异,后续将研究,在FLUX上1.5倍加速,数值指标基本不变优于其他方法 [17][18] - ToCa在基础模型DiT上结果证明其优越性 [19] 视频生成模型 - 团队制作网页展示OpenSora上加速效果,将视频生成结果部分抽帧浏览 [20][21] - ToCa在VBench测试中远优于其他方法,取得2.36倍无损加速,在加速效果和生成质量上最优,大部分指标和原模型得分几乎相同 [21][22] 总结 - ToCa是首次从Token级实现扩散模型加速的方法,适配性强,在多种任务上表现佳,基于特征缓存的扩散模型加速方法值得进一步探索 [23]