Workflow
谢赛宁新作:VAE退役,RAE当立
量子位·2025-10-14 16:16

时令 发自 凹非寺 量子位 | 公众号 QbitAI 昔日风光无限的VAE,终于被宣判"退役"? 谢赛宁团队 最新研究给出了答案—— VAE的时代结束,RAE将接力前行 。 其中表征自编码器RAE(Representation Autoencoders)是一种用于扩散Transformer(DiT)训练的新型自动编码器,其核心设计是用预 训练的表征编码器(如DINO、SigLIP、MAE 等)与训练后的轻量级解码器配对,从而替代传统扩散模型中依赖的VAE(变分自动编码 器)。 这种新结构不仅能提供高质量重建结果,还具备语义丰富的潜空间,同时支持可扩展的基于变换器的架构。 该方法在无需额外表示对齐损失的情况下,实现了更快的收敛速度。通过采用配备轻量级宽型DDT头部的DiT变体,他们在ImageNet上取得 强劲的图像生成效果: 下面具体来看。 VAE退役,RAE当立 如今,Diffusion Transformer虽已取得长足发展,但多数模型仍依赖2021年的旧版SD-VAE构建潜空间。 这引发了几大核心问题: 256×256分辨率下,无引导(no guidance)FID= 1.51; 256×256和512 ...