Workflow
RAE
icon
搜索文档
VAE再被补刀,清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
36氪· 2025-10-28 15:32
技术范式变革 - 图像生成领域出现无VAE潜在扩散模型新范式,清华与快手可灵团队推出SVG模型[1] - VAE因语义纠缠缺陷被接连抛弃,调整潜空间单一数值会导致图像多特征 unintended 联动变化[3] - 传统VAE+扩散模型范式将高分辨率图像压缩为低维潜空间特征,导致不同语义图像特征混乱交织,训练和生成效率低下[5] SVG模型核心技术优势 - 采用语义与细节双分支加分布对齐架构,以DINOv3预训练模型作为语义提取器解决语义纠缠问题[6][8] - 设计轻量级残差编码器补充DINOv3忽略的颜色、纹理等高频细节,并通过分布对齐机制实现完美融合[8] - 分布对齐机制至关重要,移除后生成图像FID值从6.12升至9.03,生成质量大幅下滑[9] 训练与生成效率突破 - 相比传统VAE方案,SVG实现训练效率62倍提升和生成速度35倍提升[1] - 在ImageNet 256×256数据集上,SVG-XL模型仅训练80个epoch,无分类器引导时FID达6.57,远超同规模基于VAE的SiT-XL(FID 22.58)[11] - 在5步采样推理效率消融实验中,SVG-XL的gFID为12.26,显著优于SiT-XL(SD-VAE)的69.38和SiT-XL(VA-VAE)的74.46[12] 多任务通用性表现 - SVG特征空间可直接用于图像分类、语义分割、深度估计等任务,无需微调编码器[13] - 在ImageNet-1K分类任务中Top-1精度达81.8%,与原始DINOv3几乎一致;在ADE20K语义分割任务中mIoU达46.51%,接近专门分割模型水平[13][14] - 模型在1400个epoch延长训练后,FID可低至1.92,接近当前顶级生成模型水平[11] 行业影响与团队背景 - 技术突破显示预训练视觉模型特征空间已具备替代VAE能力,代表行业技术发展方向[17] - 项目由加州大学伯克利分校博士后郑文钊负责,核心成员来自清华大学自动化系和快手可灵团队[15][17]
VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
量子位· 2025-10-28 13:12
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 前脚谢赛宁刚宣告VAE在图像生成领域退役,后脚清华与快手可灵团队也带着无VAE潜在扩散模型 SVG 来了。 该方法实现了在训练效率上62倍、生成速度上35倍的提升。 VAE为何被接连抛弃?主要还是因为 语义纠缠 的缺陷——语义特征都放在同一个潜空间,调一个数值就会"牵一发而动全身",比如只想改变 猫的颜色,结果体型、表情都跟着变。 和谢赛宁团队极简复用预训练编码器、改造DiT架构,专注于生成性能的RAE不同,SVG通过 语义+细节双分支+分布对齐 ,实现了多任务通 用。 下面具体来看。 主动构建语义与细节融合的特征空间 在传统的「VAE+扩散模型」图像生成范式中,VAE的核心作用是将高分辨率图像压缩为低维的潜空间特征(可以理解为图像的简化代码), 供后续扩散模型学习生成逻辑。 但这样会使不同类别、不同语义的图像特征会混乱地交织在一起,比如猫和狗的特征边界模糊不清等。 直接导致两个问题: 一是扩散模型训练效率极低,需要数百万步迭代才能勉强理清特征逻辑; 二是生成过程繁琐,往往需要经过几十甚至上百步采样才能输出清晰图像。 并且,生成的特征空间用途单一,除了图像 ...
「我受够了Transformer」:其作者Llion Jones称AI领域已僵化,正错失下一个突破
机器之心· 2025-10-25 11:20
文章核心观点 - Transformer架构的创造者之一Llion Jones表示已厌倦该架构,并指出AI行业因过度投资和竞争压力而僵化于单一架构,导致创造力下降和探索不足,可能错失下一个重大突破 [2][3][23][29][31] AI行业现状与挑战 - AI领域面临悖论:资源投入前所未有,但创造力却在下降,研究者因害怕被竞争对手抢先而选择安全、易于发表的项目,而非高风险变革性项目 [11][16] - 行业竞争导致研究同质化,例如有四篇不同论文几乎同时提出与表征自编码器类似的思想,以及两家公司在OCR token化方法上撞车 [12] - 当前AI研发模式过度“利用”现有Transformer架构,而“探索”不足,导致陷入局部最优解,可能错过更优越的替代方案 [16][29] Transformer的成功与局限 - 论文《Attention is all you need》发表于2017年,已获得超过20万次引用,是本世纪最具影响力的计算机科学论文之一 [7] - Transformer自身的成功和强大灵活性,反而可能阻碍人们去寻找更好的替代技术 [24] - 简单地构建更大的Transformer模型可能正接近收益递减的瓶颈,持续进步可能需要架构创新而不仅仅是规模扩大 [29] 创新环境与解决方案 - Transformer的诞生源于自由、自下而上的研究环境,如午餐交谈和白板涂鸦,没有来自管理层的项目或论文发表压力 [19] - 倡导调高“探索旋钮”,公开分享研究成果,即使会带来竞争代价,以合作而非竞争的方式共同推动技术进步 [21][26] - 在研究机构中提供探索自由比高薪更能吸引顶尖人才,例如Sakana AI给予研究员一周时间自由探索,最终成果被NeurIPS接收为Spotlight论文 [21][22] 未来展望与风险 - 下一个Transformer规模的突破可能正由拥有探索自由的研究人员追寻,但可能因当前行业追逐增量改进而被忽视 [31] - 每年数百亿美元流入AI研发,但激烈的竞争和保密倾向使得探索性研究环境渐行渐远,可能需要颠覆现有的激励机制以找到根本性创新 [29]