无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」
机器之心·2025-10-23 13:09
长期以来,扩散模型的训练通常依赖由变分自编码器(VAE)构建的低维潜空间表示。然而,VAE 的潜空间表征能力有限,难以有效支撑感知理解等核心视觉任 务,同时「VAE + Diffusion」的范式在训练与推理效率上也存在显著瓶颈。 清华大学智能视觉团队和快手可灵团队联合推出《Latent Diffusion Model without Variational Autoencoder》与近期爆火的谢赛宁团队 RAE 工作不谋而合,但在总体 设计思路与研究重点上有所差异。 本篇文章通过直接结合预训练视觉特征编码器(如 DINO、SigLIP、MAE)结合残差信息学习预训练视觉特征编码器丢失的图片重建信息与专门训练的解码器,有 效替代了传统 VAE,提升了表示质量与效率。 本文提出的系统性框架称为 SVG ( S elf-supervised representation for V isual G eneration)。 论文标题: Latent Diffusion Model without Variational Autoencoder 该论文同样对传统 VAE + Diffusion 的局限性进行了分析,发 ...