清华联手英伟达打造扩散模型新蒸馏范式!视频生成提速50倍,4步出片不穿模
英伟达英伟达(US:NVDA) 量子位·2025-10-22 17:12

技术突破:分数正则化连续时间一致性模型 (rCM) - 清华大学与NVIDIA联合提出全新大规模扩散模型蒸馏范式,即分数正则化连续时间一致性模型 (rCM) [3][5] - 该方法首次将连续时间一致性蒸馏成功扩展至百亿参数级别的文生图和文生视频模型,解决了现有方法在真实应用场景中的瓶颈 [3] - 通过引入前向-反向散度联合优化框架,rCM在大幅提升推理速度的同时,兼顾了生成结果的高质量与高多样性 [4] 性能表现:推理速度与生成质量 - rCM将教师模型上百步的采样过程压缩至1-4步,实现了15-50倍的推理加速 [20] - 在T2I任务的GenEval评测和T2V任务的VBench评测中,4步采样的rCM模型在多个指标上追平甚至超越了需要数百步采样的教师模型 [21] - 即便在1-2步的极限采样设置下,rCM依然能产出高质量、细节丰富的图像和视频,对于简单的图像提示词只需1步生成,复杂的图像和视频则需2-4步 [31] 模型对比与实验数据 - 在Wan2.1 T2V 1.3B模型上,4步采样的rCM模型总得分(Total Score)为84.43,质量得分(Quality Score)为85.38,语义得分(Semantic Score)为80.63,与教师模型(50步采样,总得分83.02)相比性能更优 [23] - 在Wan2.1 T2V 14B模型上,2步采样的rCM模型总得分达到85.05,质量得分85.57,语义得分82.95,超越了50步采样的教师模型(总得分83.58) [23] - 在Cosmos-Predict2 TI2V 2B模型上,4步采样的rCM模型T2V得分为84.40,相比教师模型(83.03)有所提升,同时吞吐量从0.32 FPS提升至4.6 FPS [23] 技术原理与优势 - rCM在连续时间一致性模型(sCM)的基础上,引入了基于分数蒸馏的反向散度作为正则项,构建前向-反向联合蒸馏框架 [18] - 前向散度保证生成结果的高多样性,反向散度强制模型聚焦于高质量数据区域以提升生成质量,联合优化实现了质量与多样性的“双赢” [19][22] - 相较于先前的SOTA蒸馏方法DMD2,rCM生成的视频内容展现出明显更高的多样性,有效避免了“模式坍缩”问题 [25] 工程实现与应用前景 - 团队通过自研FlashAttention-2 JVP CUDA算子并兼容序列并行等分布式训练策略,成功将连续时间一致性蒸馏应用到Cosmos和Wan2.1等业界领先的大模型上 [13] - rCM提供了一个无需多阶段训练与复杂超参搜索的高效蒸馏方案,揭示了结合前向与反向散度是提升生成模型性能的统一范式 [33] - 该方法未来将被更广泛地应用在NVIDIA的Cosmos系列世界模型中 [34]

清华联手英伟达打造扩散模型新蒸馏范式!视频生成提速50倍,4步出片不穿模 - Reportify