Workflow
天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖
量子位·2025-10-29 10:39

允中 发自 凹非寺 量子位 | 公众号 QbitAI 近年来,基于扩散模型的图像生成技术发展迅猛,催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。然而,当前主流的训练 范式普遍依赖一个核心组件——变分自编码器(VAE),这也带来了长久以来困扰研究者们的几个问题: 为了从根本上解决VAE带来的诸多限制,EPG中提出通过 自监督预训练(SSL Pre-training)与端到端微调(End-to-End Fine-tuning) 相结合 的方式,彻底去除了生成模型对VAE的依赖。 其核心优势在于: 训练效率与生成效果双重突破:在ImageNet-256和512数据集上,EPG在训练效率远超基于VAE的主流模型DiT/SiT的同时,仅仅通过75次 模型前向计算就取得了更优的生成质量,FID分别达到了2.04和2.35。 首次实现像素空间的一致性模型训练:在不依赖VAE及 预训练的扩散模型权重 的前提下,EPG首次成功在像素空间中端到端地训练了一致性 模型(Consistency Model),在ImageNet-256上仅需单步即可取得8.82的FID。 训练复杂性:VAE旨在 ...