反向KL散度

搜索文档
ICML 2025 Spotlight | 清华朱军组&NVIDIA提出DDO:扩散/自回归模型训练新范式,刷新图像生成SOTA
机器之心· 2025-07-01 17:34
背景 | 基于似然的生成模型 - 扩散模型和自回归模型在图像生成中占据主导地位,具有训练稳定、样本多样性强、容易规模化的特点 [4] - 这类模型显式估计数据的对数似然,但最大似然估计会导致「mode covering」问题,生成结果模糊或失真 [6] - 现有视觉生成模型依赖引导方法如CFG来抑制低质量生成样本 [6] 方法 | 直接判别优化(DDO) - DDO将基于似然的生成模型隐式参数化为GAN,无需额外网络即可实现高效微调 [1] - 使用对数似然比构造「隐式判别器」,引入反向KL散度强化真实数据附近的密度 [7][9] - 微调后的模型与原模型结构相同,但生成质量显著提升 [12] 实验结果 - 在ImageNet 256×256任务中,EDM模型+DDO的FID从1.97降至1.38 [14] - VAR-d16模型+DDO的FID从11.33降至3.12,VAR-d30模型+DDO的FID从4.74降至1.79 [14] - ImageNet 64×64无引导FID从1.58降至0.97,CIFAR-10无引导FID从1.85降至1.30 [18] - 生成图像的细节和真实度显著提升,且多样性未受影响 [15] 技术优势 - 无需修改网络结构、不增加推理成本,与主流CFG等引导方法兼容 [21] - 通过多轮self-play可进一步降低FID指标 [19] - 训练目标适用于扩散模型和自回归模型,具有通用性 [9][12] 应用展望 - 方法灵感来自语言模型的DPO,但扩展到了「分布对齐」 [23] - 自生成样本作为负例的思路与GRPO等RL算法相似,可用于数学推理等任务 [23] - 有望扩展至多模态生成任务,构建统一的对齐范式 [23]