Workflow
EPG
icon
搜索文档
天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖
量子位· 2025-10-29 10:39
技术突破与核心优势 - 提出名为EPG的新训练框架,通过自监督预训练与端到端微调相结合的方式,彻底消除了生成模型对变分自编码器的依赖[1] - 在ImageNet-256数据集上仅需75次模型前向计算即可达到2.04的FID分数,在ImageNet-512数据集上达到2.35的FID,生成质量优于主流模型[3] - 首次在不依赖VAE及预训练扩散模型权重的前提下,成功在像素空间中端到端训练一致性模型,在ImageNet-256上单步生成即可取得8.82的FID[5] 传统VAE范式的局限性 - VAE训练过程复杂,需要在图像压缩率与重建质量之间取得精妙平衡,极具挑战性[6] - 当需要在新的领域微调生成模型时,若预训练的VAE表现不佳,必须连同生成模型一起微调,这会显著增加训练成本和开发周期[6] 训练效率与成本 - EPG框架总训练开销显著低于主流模型DiT,预训练/VAE训练时间为57小时,而DiT为160小时;微调时间为139小时,而DiT预估为506小时[7] - 训练方法借鉴计算机视觉的经典范式,将复杂生成任务解耦为两个更易处理的阶段:自监督预训练和端到端微调,极大简化了训练流程[7][14] 两阶段训练方法详解 - 第一阶段自监督预训练专注于解耦表征学习与像素重建,模型仅训练编码器部分,通过对比损失和表征一致性损失从带噪图像中提取高质量视觉特征[8][9] - 第二阶段端到端微调将预训练好的编码器与随机初始化的解码器拼接,直接使用扩散模型或一致性模型的损失函数进行微调,无缝衔接下游生成任务[13] 性能基准对比 - 在ImageNet-256任务上,EPG/16模型的FID为2.04,优于隐空间模型如DiT-XL/2的2.27和SiT-XL/2的2.06,也优于其他像素空间模型[16] - 在ImageNet-512任务上,EPG/32模型在800个周期后FID达到2.35,优于对比的隐空间和像素空间模型[16] - 在一致性模型训练上,EPG在像素空间单步生成FID为8.82,显著优于隐空间模型如Shortcut-XL/2的7.80[17] 推理性能与可扩展性 - 基于EPG训练的扩散模型在推理时仅需75次模型前向计算即可达到最优效果,步数远低于其他方法[18] - 模型在256x256和512x512分辨率图像上均能保持一致的生成速度,展现了优异的可扩展性[18]