Workflow
扩散模型加速
icon
搜索文档
NeurIPS 2025 Spotlight | 中国联通以全局优化重塑扩散模型加速
机器之心· 2025-11-26 09:36
文章核心观点 - 提出一种名为LeMiCa的全新缓存加速框架,旨在解决扩散模型在视频生成中推理时间长、算力成本高的瓶颈问题 [2] - 该方法的核心思想是将缓存加速问题重新定义为全局路径优化问题,而非局部决策问题,从而在保持画质与一致性的同时实现高效推理加速 [2][7] - 研究成果已成功入选NeurIPS 2025 Spotlight,并获得阿里通义千问和智谱AI等业界顶级团队的认可 [3][25] 技术原理与方法 - 将扩散模型的生成过程抽象为带权有向无环图(DAG),其中节点代表时间步,边代表缓存复用行为,边权重对应缓存导致的全局误差 [8] - 提出一种全新的误差度量方法,通过离线构建静态DAG来量化缓存对最终生成视频结果的影响,并使用L1损失量化全局误差 [11] - 采用字典序极小化路径优化准则进行路径搜索,不追求误差总和最小,而是确保最大误差被最小化且误差分布更均衡,避免单段灾难性退化 [12][13] 性能表现与实验结果 - 在Open-Sora 1.2模型测试中,LeMiCa-fast方案实现2.44倍加速,延迟从26.54秒降低至10.86秒,PSNR从基准的11.91提升至21.76 [15] - 在Latte模型测试中,LeMiCa-fast方案实现2.93倍加速,延迟从11.18秒降低至3.81秒,PSNR从基准的8.65提升至19.43 [15] - 在CogVideoX模型测试中,LeMiCa-fast方案实现2.61倍加速,延迟从43.08秒降低至16.48秒,PSNR从基准的29.85提升至25.59 [15] - 视觉质量指标显著提升,例如在Open-Sora 1.2上,LeMiCa-slow的LPIPS低至0.050,SSIM高达0.923,远超其他对比方法 [15] 技术优势与特点 - 具备极佳的生成效果,在结构、纹理和内容一致性方面实现全面提升 [19] - 提供优秀的加速性能,实现2.4倍以上的高倍加速推理 [19] - 仅需极少样本即可建立高质量DAG,单样本已具备强性能,20个样本即达到性能饱和,体现了高鲁棒性和场景扩展能力 [18] - 路径鲁棒性强,即使改变采样调度中的轨迹缩放参数,LeMiCa仍能保持较好效果 [20] - 作为通用框架,不仅适用于视频生成模型,也兼容文生图模型,如在QWen-Image模型上同样表现出色 [21]
ACM MM 2025 | 小红书AIGC团队提出风格迁移加速算法STD
机器之心· 2025-08-04 15:05
核心观点 - 文章提出单轨迹蒸馏(STD)方法,解决现有一致性模型在风格化任务中风格相似性和美学质量受损的问题 [2][3] - STD通过固定起点η的单条轨迹蒸馏,解决训练与推理轨迹不对齐问题 [8][21] - 引入轨迹状态库降低训练成本,非对称对抗损失提升生成质量 [11][25] - 实验证明STD在风格相似性和美学评估上优于现有加速扩散模型 [5][33] 方法创新 单轨迹蒸馏(STD) - 从固定加噪状态x_(τ_η)出发,通过教师模型完整去噪出多个x_t,使学生模型在完整轨迹上实现自一致性 [8] - 约束学生模型学习时间步s接近教师步t:s∼u[(1-γ)t,t], t∈[0,τ_η] [19][20] - 理论分析显示STD能减小误差上界,同时保留随机性提升模型性能 [18][21] 轨迹状态库 - 预存教师模型PF-ODE轨迹中间状态,避免反复推理带来的训练开销 [11][24] - 按采样概率ρ随机抽取中间状态,保持训练效率与传统一致性模型一致 [24] 非对称对抗损失 - 建立x_s与x_r(r<s)的约束关系,通过时间步错位增强风格化程度 [25] - 实验显示该损失能显著提升图像饱和度和减少纹理噪声 [11][25] 实验结果 对比实验 - 测试集包含wikiArt、COCO和自定义图像/视频数据 [29] - 评估指标:风格相似度(CSD)、LAION美学评分和时间一致性(Warping Error) [29] - NFE=8时STD的CSD达0.503,美学评分4.815,均优于对比方法 [30][33] - 视频生成的Warping Error为0.166,显著优于MCM的0.257 [33] 消融实验 - 轨迹状态库抵消STD带来的3.8倍训练耗时 [36][37] - 非对称对抗损失使CSD从0.537提升至0.561,美学分从5.185提升至5.202 [37] - γ=0.7时在风格保持与细节呈现间取得最佳平衡 [42] 参数分析 - η越大风格化程度越高但内容相关性越弱 [40] - r<s时非对称对抗损失效果最佳,噪点最少 [44][45] 应用扩展 - STD可扩展至基于部分噪声的图像/视频编辑任务,如inpainting [47] - 实验显示STD的inpainting效果比LCM和TCD更自然 [47]