全局路径优化
搜索文档
NeurIPS 2025 Spotlight | 中国联通以全局优化重塑扩散模型加速
机器之心· 2025-11-26 09:36
文章核心观点 - 提出一种名为LeMiCa的全新缓存加速框架,旨在解决扩散模型在视频生成中推理时间长、算力成本高的瓶颈问题 [2] - 该方法的核心思想是将缓存加速问题重新定义为全局路径优化问题,而非局部决策问题,从而在保持画质与一致性的同时实现高效推理加速 [2][7] - 研究成果已成功入选NeurIPS 2025 Spotlight,并获得阿里通义千问和智谱AI等业界顶级团队的认可 [3][25] 技术原理与方法 - 将扩散模型的生成过程抽象为带权有向无环图(DAG),其中节点代表时间步,边代表缓存复用行为,边权重对应缓存导致的全局误差 [8] - 提出一种全新的误差度量方法,通过离线构建静态DAG来量化缓存对最终生成视频结果的影响,并使用L1损失量化全局误差 [11] - 采用字典序极小化路径优化准则进行路径搜索,不追求误差总和最小,而是确保最大误差被最小化且误差分布更均衡,避免单段灾难性退化 [12][13] 性能表现与实验结果 - 在Open-Sora 1.2模型测试中,LeMiCa-fast方案实现2.44倍加速,延迟从26.54秒降低至10.86秒,PSNR从基准的11.91提升至21.76 [15] - 在Latte模型测试中,LeMiCa-fast方案实现2.93倍加速,延迟从11.18秒降低至3.81秒,PSNR从基准的8.65提升至19.43 [15] - 在CogVideoX模型测试中,LeMiCa-fast方案实现2.61倍加速,延迟从43.08秒降低至16.48秒,PSNR从基准的29.85提升至25.59 [15] - 视觉质量指标显著提升,例如在Open-Sora 1.2上,LeMiCa-slow的LPIPS低至0.050,SSIM高达0.923,远超其他对比方法 [15] 技术优势与特点 - 具备极佳的生成效果,在结构、纹理和内容一致性方面实现全面提升 [19] - 提供优秀的加速性能,实现2.4倍以上的高倍加速推理 [19] - 仅需极少样本即可建立高质量DAG,单样本已具备强性能,20个样本即达到性能饱和,体现了高鲁棒性和场景扩展能力 [18] - 路径鲁棒性强,即使改变采样调度中的轨迹缩放参数,LeMiCa仍能保持较好效果 [20] - 作为通用框架,不仅适用于视频生成模型,也兼容文生图模型,如在QWen-Image模型上同样表现出色 [21]