Workflow
RAE
icon
搜索文档
RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取
机器之心· 2025-11-13 18:03
技术突破核心观点 - 近期研究提出利用冻结的预训练视觉模型特征直接构建潜空间,以提升扩散模型性能,代表技术为RAE和VFM-VAE [2] - VFM-VAE结合了VAE的概率建模机制,将高维预训练特征压缩为低维潜空间表示,系统性地研究了压缩条件下预训练视觉表征对LDM系统的影响 [2] - 该方法通过直接集成冻结的基础视觉模型作为Tokenizer,显著加速模型收敛并提升生成质量,展示了LDM Tokenizer从像素压缩迈向语义表征的演化方向 [2][5] 行业背景与技术挑战 - 扩散模型和多模态生成系统的性能上限日益受限于视觉分词器的表达能力 [6] - 传统蒸馏式方法(如VA-VAE)在有限数据集上训练,在语义保持扰动下容易失稳,导致潜空间表示偏移和系统稳健性下降 [6] - 研究团队提出SE-CKNNA指标,用于量化潜空间与基础视觉模型特征之间的一致性,并评估其对生成性能的影响 [7] VFM-VAE技术方案与架构 - 为解决基础视觉模型高层特征缺乏精确空间结构信息的问题,设计了两阶段解码框架,兼顾语义压缩与像素还原 [13] - 编码侧通过冻结基础视觉模型提取多层语义特征,并利用轻量投影模块映射到潜空间z [14] - 解码器采用多尺度潜特征融合结构,将z分为语义分支和空间分支,分别提供全局风格控制和布局确定 [14] - 使用调制式卷积块与层级式ToRGB输出,在8×8至256×256的金字塔结构中逐级恢复细节 [14] 性能表现与效率优势 - 在ImageNet 256×256上,VFM-VAE在相同训练阶段实现gFID 3.80(without CFG),优于蒸馏路线的5.14 [23] - 与显式对齐机制结合后,仅用80 epochs即可达到gFID 2.22(without CFG),训练效率较蒸馏式Tokenizer系统提升约10倍 [23] - 在文生图任务中,VFM-VAE + BLIP3-o在DPG-Bench上得分59.1,较VA-VAE提升明显;在MJHQ-30K上gFID降至16.98(蒸馏路线为23.00) [23] 行业比较与竞争定位 - 实验数据显示,VFM-VAE在仅使用44M图像训练时,其CKNNA指标相对变化为+1.6%,而VA-VAE(使用160M图像)为-33.2%,表明VFM-VAE在扰动下具有更好的稳健性 [11] - 在生成性能对比中,VFM-VAE结合不同生成模型(如REG、LightningDiT)在多个训练周期下均展现出竞争力的gFID和IST分数 [24] - VFM-VAE将VAE从传统的压缩与还原工具,转化为理解与生成的统一桥梁,使语义在潜空间中得到显式建模与传递 [28]
舍弃 VAE,预训练语义编码器能让 Diffusion 走得更远吗?
机器之心· 2025-11-02 09:30
舍弃VAE的扩散模型新范式 - 当前主流的隐扩散模型依赖预训练的变分自编码器将图像压缩至紧凑的潜空间,该范式包含VAE编码和潜空间扩散两个核心阶段[8] - VAE已成为下一代生成模型能力提升的主要瓶颈,其计算成本高昂,例如Stable Diffusion 2.1的VAE编码器处理高分辨率图像需要135.59 GFLOPs,超过其扩散U-Net网络的86.37 GFLOPs[8] - VAE的训练目标导致其潜空间存在语义纠缠问题,即不同类别对象特征混乱混合,缺乏清晰边界和聚类结构,这构成生成质量的保真度瓶颈并导致训练低效不稳定[9] - 纽约大学谢赛宁团队的RAE和清华&快手团队的SVG工作均选择弃用VAE,改用预训练语义编码器来构建新范式,以解决语义纠缠、计算效率低及生成与感知任务割裂等问题[9] - RAE提供了一个通用框架,通过将任意冻结的预训练语义编码器与轻量级解码器配对,将扩散模型引入高维但语义丰富的潜空间[9] - SVG提出一种完全无VAE的架构,通过融合冻结的DINOv3语义主干和专用于捕捉细节的残差分支,构建兼具语义判别性与重构保真度的统一表征空间[10] - RAE和SVG的核心思路是将扩散模型从压缩优先转为语义优先,通过继承预训练基础模型的语义丰富表征空间,以解锁更优的效率、生成质量和任务通用性[10] - RAE和SVG均利用海量数据预训练的视觉基础模型所提供的强大先验知识,RAE的核心思想是表征优先,直接继承预训练语义编码器的能力以填补自编码器的语义鸿沟[11] 多模态大语言模型的视觉衰减问题 - 文本主导性跨越图像、视频、音频等不同模态,已成为多模态大语言模型的普遍缺陷[2] - 当推理链延长时,模型的注意力会从视觉Token迁移至语言Token[2] - 跨模态连接值的指数衰减定律影响了视觉信息在深层架构中的有效性[2] - 双通道注意力对齐机制可用于消除模态间的不一致性[2] - VAR方法旨在确保所有推理都基于可追溯的视觉事实[2] AI时代的商业法则与投资趋势 - LinkedIn创始人Reid Hoffman提出AI时代黄金商业法则为懒惰且富有[3] - Hoffman断言万物皆可软件化是硅谷的致命盲区[3] - AI时代的贪婪与懒惰法则可能终结Web 2.0时代先烧钱、后盈利的传统路径[3] - 顶尖大语言模型只能给出B-级共识,这种现象意味着人类专家的价值可能从知识储存库转移到了反共识思维[3] - Hoffman押宝原子世界,显示出对物理世界和数字世界结合领域的投资兴趣[3]
VAE再被补刀,清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
36氪· 2025-10-28 15:32
技术范式变革 - 图像生成领域出现无VAE潜在扩散模型新范式,清华与快手可灵团队推出SVG模型[1] - VAE因语义纠缠缺陷被接连抛弃,调整潜空间单一数值会导致图像多特征 unintended 联动变化[3] - 传统VAE+扩散模型范式将高分辨率图像压缩为低维潜空间特征,导致不同语义图像特征混乱交织,训练和生成效率低下[5] SVG模型核心技术优势 - 采用语义与细节双分支加分布对齐架构,以DINOv3预训练模型作为语义提取器解决语义纠缠问题[6][8] - 设计轻量级残差编码器补充DINOv3忽略的颜色、纹理等高频细节,并通过分布对齐机制实现完美融合[8] - 分布对齐机制至关重要,移除后生成图像FID值从6.12升至9.03,生成质量大幅下滑[9] 训练与生成效率突破 - 相比传统VAE方案,SVG实现训练效率62倍提升和生成速度35倍提升[1] - 在ImageNet 256×256数据集上,SVG-XL模型仅训练80个epoch,无分类器引导时FID达6.57,远超同规模基于VAE的SiT-XL(FID 22.58)[11] - 在5步采样推理效率消融实验中,SVG-XL的gFID为12.26,显著优于SiT-XL(SD-VAE)的69.38和SiT-XL(VA-VAE)的74.46[12] 多任务通用性表现 - SVG特征空间可直接用于图像分类、语义分割、深度估计等任务,无需微调编码器[13] - 在ImageNet-1K分类任务中Top-1精度达81.8%,与原始DINOv3几乎一致;在ADE20K语义分割任务中mIoU达46.51%,接近专门分割模型水平[13][14] - 模型在1400个epoch延长训练后,FID可低至1.92,接近当前顶级生成模型水平[11] 行业影响与团队背景 - 技术突破显示预训练视觉模型特征空间已具备替代VAE能力,代表行业技术发展方向[17] - 项目由加州大学伯克利分校博士后郑文钊负责,核心成员来自清华大学自动化系和快手可灵团队[15][17]
VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
量子位· 2025-10-28 13:12
技术趋势:无VAE潜在扩散模型的兴起 - 图像生成领域出现技术范式转变,VAE(变分自编码器)正被无VAE潜在扩散模型替代 [1] - 清华与快手可灵团队联合提出名为SVG的无VAE潜在扩散模型,标志着技术路线的演进 [1] SVG模型的核心技术创新 - 采用“语义+细节双分支+分布对齐”的架构,从根本上解决VAE的语义纠缠缺陷 [4] - 语义纠缠指传统VAE将不同语义特征置于同一潜空间,导致调整单一数值(如猫的颜色)会引发连锁反应(如体型、表情改变) [4] - 以DINOv3预训练模型作为语义提取器,确保不同类别(如猫、狗)的特征边界清晰可辨 [14] - 专门设计轻量级残差编码器补充DINOv3忽略的颜色、纹理等高频细节信息 [14] - 通过分布对齐机制调整细节特征,使其数值分布与DINOv3语义特征匹配,避免细节扰乱语义结构 [15][16] - 消融实验证明分布对齐机制至关重要,移除后生成图像的FID值从6.12升至9.03,生成质量大幅下滑 [16] SVG模型的性能优势 - 在训练效率上实现62倍提升,在生成速度上实现35倍提升 [3] - 在ImageNet 256×256数据集上,SVG-XL模型仅训练80个epoch,无分类器引导时FID达6.57,远超同规模基于VAE的SiT-XL(FID 22.58) [18] - 当训练延长至1400个epoch,SVG-XL的FID可低至1.92,接近当前顶级生成模型水平 [18][19] - 在推理效率上,5步采样时SVG-XL的gFID为12.26,显著优于SiT-XL(SD-VAE)的69.38和SiT-XL(VA-VAE)的74.46,表明其在较少采样步数下即可达到较好生成质量 [19][20] - 10步采样时,SVG-XL的gFID为9.39(无CFG)和6.49(有CFG),优于对比模型 [20] SVG模型的多任务通用性 - 模型构建的特征空间具备多任务通用能力,不仅用于图像生成,还可直接用于图像分类、语义分割、深度估计等视觉任务,且无需微调编码器 [22] - 在ImageNet-1K图像分类任务中Top-1精度达到81.8%,与原始DINOv3(81.71%)几乎一致 [22][23] - 在ADE20K语义分割任务中mIoU达46.51%,接近专门的分割模型 [22][23] 技术路线对比:SVG与RAE - SVG技术路线旨在兼顾生成与多任务通用,而谢赛宁团队的RAE技术路线则极致聚焦于图像生成性能 [4][11] - RAE直接复用DINOv2、MAE等预训练编码器,不修改编码器结构,仅优化解码器来还原图像细节,并针对性改造扩散模型架构 [9][10] - SVG则主动构建语义与细节融合的特征空间,而非直接复用预训练特征 [12]
「我受够了Transformer」:其作者Llion Jones称AI领域已僵化,正错失下一个突破
机器之心· 2025-10-25 11:20
文章核心观点 - Transformer架构的创造者之一Llion Jones表示已厌倦该架构,并指出AI行业因过度投资和竞争压力而僵化于单一架构,导致创造力下降和探索不足,可能错失下一个重大突破 [2][3][23][29][31] AI行业现状与挑战 - AI领域面临悖论:资源投入前所未有,但创造力却在下降,研究者因害怕被竞争对手抢先而选择安全、易于发表的项目,而非高风险变革性项目 [11][16] - 行业竞争导致研究同质化,例如有四篇不同论文几乎同时提出与表征自编码器类似的思想,以及两家公司在OCR token化方法上撞车 [12] - 当前AI研发模式过度“利用”现有Transformer架构,而“探索”不足,导致陷入局部最优解,可能错过更优越的替代方案 [16][29] Transformer的成功与局限 - 论文《Attention is all you need》发表于2017年,已获得超过20万次引用,是本世纪最具影响力的计算机科学论文之一 [7] - Transformer自身的成功和强大灵活性,反而可能阻碍人们去寻找更好的替代技术 [24] - 简单地构建更大的Transformer模型可能正接近收益递减的瓶颈,持续进步可能需要架构创新而不仅仅是规模扩大 [29] 创新环境与解决方案 - Transformer的诞生源于自由、自下而上的研究环境,如午餐交谈和白板涂鸦,没有来自管理层的项目或论文发表压力 [19] - 倡导调高“探索旋钮”,公开分享研究成果,即使会带来竞争代价,以合作而非竞争的方式共同推动技术进步 [21][26] - 在研究机构中提供探索自由比高薪更能吸引顶尖人才,例如Sakana AI给予研究员一周时间自由探索,最终成果被NeurIPS接收为Spotlight论文 [21][22] 未来展望与风险 - 下一个Transformer规模的突破可能正由拥有探索自由的研究人员追寻,但可能因当前行业追逐增量改进而被忽视 [31] - 每年数百亿美元流入AI研发,但激烈的竞争和保密倾向使得探索性研究环境渐行渐远,可能需要颠覆现有的激励机制以找到根本性创新 [29]