SiT
搜索文档
NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
机器之心· 2025-11-29 09:49
文章核心观点 - REG方法通过将预训练视觉模型的class token与图像latent在空间维度拼接并共同加噪训练,显著加速Diffusion模型的训练收敛,并提升生成性能上限[9] - 该方法仅需引入一个额外token,计算开销小于0.5%,几乎不增加推理成本,却能实现数十倍的训练加速[9][17] - REG在ImageNet 256×256任务上相比基线方法SiT和REPA分别实现63倍和23倍的收敛加速[10][17] 技术方案创新 - REG采用high-level class token与low-level latent混合纠缠的去噪训练范式,使模型具备直接从纯噪声生成图像-类别对的能力[9] - 训练时对class token和latent同时加噪并联合去噪优化,推理时只需将随机初始化的class token参与去噪过程[14][15] - 与REPA仅进行特征对齐不同,REG显式将DINOv2表征作为模型输入,实现真正的语义引导生成[13] 性能表现 - 在ImageNet 256×256上,SiT-XL/2+REG在400K步时FID达到3.4,显著优于SiT-XL/2+REPA的7.9[18] - 经过4M步训练后,REG的FID进一步降至1.8,显示其性能上限优势[17][18] - 使用CFG时,REG在480 epochs达到1.40 FID,超越REPA 800 epochs的1.42 FID[19][20] - 在ImageNet 512×512任务上,REG仅用80 epochs即达到1.68 FID,优于REPA 200 epochs和SiT 600 epochs结果[21] 效率优势 - 训练效率大幅提升,达到相似FID时,REG相比SiT-XL/2训练时间减少98.36%,相比REPA减少95.72%[24][25] - 推理开销几乎可忽略,参数、FLOPs和延迟增加均小于0.5%,但FID比SiT-XL/2+REPA提升56.46%[26][27] - 仅需400K步的SiT-L/2+REG即可优于4M步的SiT-XL/2+REPA,实现10倍训练时长节约[10][17] 技术验证 - 消融实验表明DINOv2 class token效果最佳,high-level全局判别信息能大幅提升生成质量[29][30] - 即使单独插入class token并进行联合加噪训练,也能带来显著性能提升[31][32] - CKNNA指标显示REG在所有训练阶段、网络层和时间步均保持更高的判别语义相似度[35][36][37] 机制分析 - REG促进生成模型的"理解-生成"解耦,class token指引模型前层专注理解噪声latent,后层聚焦生成任务[38] - 通过attention机制传递判别语义,实现"先理解、后生成"的高效生成范式[36][38] - 该方法首次提出high-level与low-level token混合纠缠的训练理念,为生成模型设计提供新思路[38]