ShortDF
搜索文档
联通破解扩散模型速度质量零和博弈,推理速度提升5倍丨CVPR 2025 Highlight
量子位· 2025-12-01 12:26
技术演进脉络 - 中国联通数据科学与人工智能研究院团队在CVPR 2025上发表了ShortDF论文,提出了基于在线训练模式的图论加速理论[1][4] - 半年后,该团队在NeurIPS 2025上发表了LeMiCa论文,创造了离线建图新范式,将图论思想适配到更高维度的文生图/视频生成任务中[2][4] - 技术路径清晰地从理论探索(ShortDF)走向复杂应用(LeMiCa),展现了技术进阶之路[4][42] 行业核心痛点 - 扩散模型(如Sora、Stable Diffusion)昂贵的推理开销是阻碍实时应用的最大路障[8] - 去噪轨迹是一条高度非线性的弯曲路径,导致现有方案面临速度与质量的“零和博弈”[9][10] - 现有加速方法在极低步数(<5步)下会出现画质崩塌和细节丢失问题[11] ShortDF核心机制 - 创新性地引入“最短路径优化”思路,在训练阶段直接拉直去噪轨迹[12] - 锁定“误差上界”进行源头优化,通过压低初始残差来限制后续累积误差[14][15][16] - 采用图论松弛策略压缩路径,让模型以伪递归方式自我修正,实现去噪路径全局最优[21][22][27] - 设计多状态优化机制,通过维护三个不同角色的模型副本确保训练稳定性[29][30] 性能表现 - 在CIFAR-10数据集上,仅需2步即可完成高质量生成,推理速度相比DDIM的10步基准提升5.0倍[36] - 2步设置的FID达到9.08,显著优于DDIM 10步的11.14,画质FID提升18.5%[36] - 在复杂场景下,ShortDF在8步生成的教堂图像质量能媲美DDIM 15步的效果[43] - 在10步推理下,人脸生成的FID降至5.0,远超DDIM的10.59[43] 行业意义 - 首次建立了残差传播与图论最短路的数学联系,提供了普适性的高效解决方案[40] - 证明精细化的数学建模比单纯的“算力堆砌”更能打破扩散模型速度枷锁[41] - 对推动AIGC技术在移动端设备、实时交互设计等资源受限场景落地具有里程碑意义[42]