Workflow
Diffusion加速
icon
搜索文档
Diffusion约2倍无损加速!训练-推理协同的缓存学习框架来了| HKUST&北航&商汤
量子位· 2025-07-06 13:12
核心观点 - 提出HarmoniCa框架解决扩散模型推理速度慢、成本高的问题,实现高性能无损加速 [1] - 通过训练-推理协同优化,突破DiT架构部署端速度瓶颈 [1] - 在PIXART、DiT等多个模型上实现更快推理、更高质量、更低训练门槛 [30] 技术方案 现有问题 - Diffusion Transformer(DiT)推理阶段存在重复计算多、耗时严重问题,如PIXART-α生成2048×2048图像需14秒 [7] - 现有特征缓存方法存在训练-推理脱节问题:前序时间步无感知、训练目标错位 [8] HarmoniCa创新机制 - **Step-Wise Denoising Training (SDT)**:模拟完整推理流程,采用教师-学生结构显式对齐缓存路径误差,抑制误差积累 [10][11][12][13] - **Image Error Proxy Objective (IEPO)**:通过动态代理项λ(t)优化最终图像质量而非中间噪声误差,实现质量与加速率可控权衡 [15][16] 实验结果 性能对比 - **分类条件生成(DiT-XL/2 256×256)**: - 10步推理时HarmoniCa FID 13.35优于LTC 14.59,缓存利用率22.86%高于LTC 19.11% [19] - 20步推理时加速比1.44×,FID 4.88显著优于LTC 5.34 [19] - **文本生成图像(PIXART-α)**: - 256×256分辨率下加速比1.60×,CLIP 31.13优于FORA 31.10 [20] - 1024×1024分辨率下加速比1.63×,FID 23.02优于DPM-Solver++ 25.01 [20] 技术兼容性 - 与4bit量化模型结合时,PIXART-α 256×256推理速度从1.18×提升至1.85×,FID仅增0.12 [24][25] - 相比量化/剪枝方法,HarmoniCa不依赖硬件优化,在20步采样下FID 4.88显著优于PTQ4DiT 71.82 [21][23] 部署优势 - **训练开销**:训练时间比LTC缩短25%,显存占用相近,支持单卡运行 [27] - **推理开销**:新增Router参数仅占0.03%,计算开销低于总FLOPs 0.001%,PIXART-α实测加速1.69× [28] - **通用性**:适配多模型(DiT/PIXART/LFM)和高分辨率(2K),无需专用硬件 [21][30]