Workflow
VAE(变分自编码器)
icon
搜索文档
VAE时代终结?谢赛宁团队「RAE」登场,表征自编码器或成DiT训练新基石
机器之心· 2025-10-14 16:24
技术突破核心观点 - 纽约大学谢赛宁团队提出表征自编码器(RAE),旨在替代存在10多年的变分自编码器(VAE),作为扩散模型(如DiT)的潜空间基础[1][2] - RAE结合预训练表征编码器(如DINO、SigLIP、MAE)与训练好的解码器,实现高质量重建和语义丰富的潜空间,同时具备可扩展的Transformer架构特性[2] - 该方案展现出明显优势,应成为DiT训练的全新默认方案[6] VAE的局限性 - SD-VAE计算量约为450 GFLOPs,而简单的ViT-B编码器仅需约22 GFLOPs,过时的骨干网络使架构比实际需要的更复杂[4] - VAE的潜空间过度压缩(仅4个通道),限制了可存储的信息量,其压缩作用有限,几乎和原始三通道像素一样受限[4] - VAE仅使用重建任务训练,学到的特征很弱(线性探针精度约8%),导致模型收敛更慢、生成质量下降[4] RAE的重建性能与优势 - 使用冻结预训练表征编码器的RAE在重建质量(rFID)上一致优于SD-VAE,例如使用MAE-B/16的RAE达到0.16的rFID,明显胜过SD-VAE的0.62[18] - 即使小型表征编码器模型也保留足够底层细节供解码,重建质量在DINOv2-S、B、L三种尺寸下保持稳定[19] - 增加解码器容量能持续提升rFID,从ViT-B的0.58提升到ViT-XL的0.49,且ViT-B性能已超过SD-VAE,其GFLOPs效率高出14倍[19] - RAE直接继承底层表征编码器的表征能力,线性探测精度远高于SD-VAE的8%,例如DINOv2-B达84.5%,SigLIP2-B达79.1%[18][20] DiT^DH架构创新 - 针对高维RAE潜空间,研究者提出新的DiT变体DiT^DH,引入浅层但宽度较大的头部结构,使扩散模型在不显著增加二次计算成本的前提下扩展网络宽度[3][32] - DiT^DH的收敛速度比标准DiT快,在计算效率(FLOPs)方面显著优于DiT[34] - DiT^DH在不同规模RAE上保持性能优势,例如在使用DINOv2-L时,将FID从6.09降低至2.73[36] 图像生成性能表现 - DiT^DH-XL在ImageNet数据集上取得优异图像生成效果:在256×256分辨率下,无引导条件FID为1.51;在256×256和512×512分辨率下,有引导条件FID均为1.13[5][41] - 该性能大大优于所有先前扩散模型,在256×256下创下新的最先进FID分数[41] - 当训练计算量达约5×10¹⁰ GFLOPs时,DiT^DH-XL表现已超越REPA-XL、MDTv2-XL和SiT-XL等模型;在5×10¹¹ GFLOPs时实现全场最佳FID,所需计算量仅为基线模型的1/40[43] 技术实现关键点 - 研究证明只要解码器训练得当,冻结表征编码器可作为扩散潜在空间的强大编码器,挑战了其不适合重建任务的假设[11][12] - 为使DiT在RAE潜空间中成功生成,模型宽度必须匹配或超过RAE的Token维度,否则训练失败或性能远逊[24][26] - 采用维度相关的噪声调度偏移,通过缩放因子调整噪声时间步长,在高维潜空间训练时带来显著性能提升[28] - 提出噪声增强解码方案,向干净潜变量注入高斯噪声,增强解码器对扩散模型输出空间的泛化能力,改善生成指标(gFID)[29]