预训练视觉模型特征空间
搜索文档
VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
量子位· 2025-10-28 13:12
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 前脚谢赛宁刚宣告VAE在图像生成领域退役,后脚清华与快手可灵团队也带着无VAE潜在扩散模型 SVG 来了。 该方法实现了在训练效率上62倍、生成速度上35倍的提升。 VAE为何被接连抛弃?主要还是因为 语义纠缠 的缺陷——语义特征都放在同一个潜空间,调一个数值就会"牵一发而动全身",比如只想改变 猫的颜色,结果体型、表情都跟着变。 和谢赛宁团队极简复用预训练编码器、改造DiT架构,专注于生成性能的RAE不同,SVG通过 语义+细节双分支+分布对齐 ,实现了多任务通 用。 下面具体来看。 主动构建语义与细节融合的特征空间 在传统的「VAE+扩散模型」图像生成范式中,VAE的核心作用是将高分辨率图像压缩为低维的潜空间特征(可以理解为图像的简化代码), 供后续扩散模型学习生成逻辑。 但这样会使不同类别、不同语义的图像特征会混乱地交织在一起,比如猫和狗的特征边界模糊不清等。 直接导致两个问题: 一是扩散模型训练效率极低,需要数百万步迭代才能勉强理清特征逻辑; 二是生成过程繁琐,往往需要经过几十甚至上百步采样才能输出清晰图像。 并且,生成的特征空间用途单一,除了图像 ...