VAE
搜索文档
LeCun、谢赛宁团队重磅论文:RAE能大规模文生图了,且比VAE更好
机器之心· 2026-01-24 09:53
文章核心观点 - 表征自编码器(RAE)作为一种新的文生图模型基础架构,在多个方面系统性超越了当前主流的变分自编码器(VAE)方案,为大规模文生图提供了更优的范式[4] - RAE通过耦合冻结的预训练视觉编码器与轻量化解码器,在从5亿到近百亿参数的多个尺度上,展现出比VAE更快的收敛速度、更高的训练稳定性以及更强的防过拟合能力[4][19][28] - 该技术路径让视觉理解与生成共享同一套高维语义表征空间,不仅简化了模型设计,也为构建多模态统一模型开辟了新的可能性[4][29][34] 架构设计与技术原理 - RAE采用与VAE截然不同的逻辑:直接使用预训练且冻结的视觉表征编码器(如SigLIP-2)将图像转化为高维语义token,仅训练一个轻量化的ViT解码器进行像素重建[6] - 以SigLIP-2 So400M为例,它将图像转化为16×16个token,每个token维度高达1152,远高于主流VAE方案的通道数(通常小于64),为生成提供了高保真度的语义起点[6] - 针对RAE操作极高维度语义表征的特点,研究团队引入了维度敏感的噪声调度平移(Noise Schedule Shift)以解决传统扩散模型噪声调度因维度灾难而失效的数学难题[14][15] - 当扩散Transformer(DiT)规模扩展至十亿参数以上时,RAE框架中原先为增强小模型能力而设计的复杂结构(如宽扩散头、噪声增强解码)被证明是冗余的,可以进行简化[17][21] 数据策略与模型表现 - 研究团队构建了一个约7300万条数据的大规模数据集,涵盖Web图像、高美感合成图像及专门的文本渲染数据,实验发现数据组成比例对模型性能至关重要[9] - 缺乏针对性文本渲染数据时,模型无法还原清晰字形细节;引入文本专项数据后,其在Text域的rFID分数出现质的飞跃(例如,从2.406降至1.621)[9][10] - 在ImageNet、YFCC和文本三个维度的重建保真度评测中,RAE方案已全面超越文生图领域的标杆SDXL VAE,虽稍逊于顶尖的FLUX VAE,但证明了其框架能适配不同预训练目标的视觉编码器[11][13] - 在从0.5B到9.8B参数的多个DiT尺度上,RAE均稳定且大幅度地优于VAE方案,并且在1.5B LLM与2.4B DiT的基准测试中,达到同等生成质量所需时间仅为VAE的四分之一左右[19][23][25] 训练稳定性与扩展性 - RAE展现出显著的收敛速度优势,在GenEval评测中实现了4.0倍加速,在DPG-Bench上达到4.6倍加速[23] - 在对高质量数据集进行精细化微调时,VAE模型在约64个epoch后出现灾难性过拟合,性能断崖式下跌,而RAE即使微调至256甚至512个epoch仍能保持稳定的生成质量,表现出极强的鲁棒性[4][25][28] - 当语言模型骨干从1.5B升级至7B时,RAE模型能更好地利用更丰富的文本表征,获得进一步的性能跨越,这证明了当生成与理解在同一个语义潜空间中对齐时,更大的语言模型能释放更强的生成潜力[25] 潜在影响与未来展望 - RAE的成功标志着潜向扩散模型正从繁复的结构堆砌回归到更简洁、更本质的语义建模[35] - 理解与生成在同一套语义特征空间中运行,为多模态统一模型打开了想象空间,例如,语言模型无需将图像解码为像素即可直接对扩散模型生成的潜变量进行理解和打分[4][29][36] - 实验显示,在加入生成训练后,模型在MME、MMMU等视觉理解榜单上的性能保持完好甚至略有提升,体现了其“理解能力保全”的特性[36]
VAE再被补刀,清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
36氪· 2025-10-28 15:32
技术范式变革 - 图像生成领域出现无VAE潜在扩散模型新范式,清华与快手可灵团队推出SVG模型[1] - VAE因语义纠缠缺陷被接连抛弃,调整潜空间单一数值会导致图像多特征 unintended 联动变化[3] - 传统VAE+扩散模型范式将高分辨率图像压缩为低维潜空间特征,导致不同语义图像特征混乱交织,训练和生成效率低下[5] SVG模型核心技术优势 - 采用语义与细节双分支加分布对齐架构,以DINOv3预训练模型作为语义提取器解决语义纠缠问题[6][8] - 设计轻量级残差编码器补充DINOv3忽略的颜色、纹理等高频细节,并通过分布对齐机制实现完美融合[8] - 分布对齐机制至关重要,移除后生成图像FID值从6.12升至9.03,生成质量大幅下滑[9] 训练与生成效率突破 - 相比传统VAE方案,SVG实现训练效率62倍提升和生成速度35倍提升[1] - 在ImageNet 256×256数据集上,SVG-XL模型仅训练80个epoch,无分类器引导时FID达6.57,远超同规模基于VAE的SiT-XL(FID 22.58)[11] - 在5步采样推理效率消融实验中,SVG-XL的gFID为12.26,显著优于SiT-XL(SD-VAE)的69.38和SiT-XL(VA-VAE)的74.46[12] 多任务通用性表现 - SVG特征空间可直接用于图像分类、语义分割、深度估计等任务,无需微调编码器[13] - 在ImageNet-1K分类任务中Top-1精度达81.8%,与原始DINOv3几乎一致;在ADE20K语义分割任务中mIoU达46.51%,接近专门分割模型水平[13][14] - 模型在1400个epoch延长训练后,FID可低至1.92,接近当前顶级生成模型水平[11] 行业影响与团队背景 - 技术突破显示预训练视觉模型特征空间已具备替代VAE能力,代表行业技术发展方向[17] - 项目由加州大学伯克利分校博士后郑文钊负责,核心成员来自清华大学自动化系和快手可灵团队[15][17]
VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
量子位· 2025-10-28 13:12
技术趋势:无VAE潜在扩散模型的兴起 - 图像生成领域出现技术范式转变,VAE(变分自编码器)正被无VAE潜在扩散模型替代 [1] - 清华与快手可灵团队联合提出名为SVG的无VAE潜在扩散模型,标志着技术路线的演进 [1] SVG模型的核心技术创新 - 采用“语义+细节双分支+分布对齐”的架构,从根本上解决VAE的语义纠缠缺陷 [4] - 语义纠缠指传统VAE将不同语义特征置于同一潜空间,导致调整单一数值(如猫的颜色)会引发连锁反应(如体型、表情改变) [4] - 以DINOv3预训练模型作为语义提取器,确保不同类别(如猫、狗)的特征边界清晰可辨 [14] - 专门设计轻量级残差编码器补充DINOv3忽略的颜色、纹理等高频细节信息 [14] - 通过分布对齐机制调整细节特征,使其数值分布与DINOv3语义特征匹配,避免细节扰乱语义结构 [15][16] - 消融实验证明分布对齐机制至关重要,移除后生成图像的FID值从6.12升至9.03,生成质量大幅下滑 [16] SVG模型的性能优势 - 在训练效率上实现62倍提升,在生成速度上实现35倍提升 [3] - 在ImageNet 256×256数据集上,SVG-XL模型仅训练80个epoch,无分类器引导时FID达6.57,远超同规模基于VAE的SiT-XL(FID 22.58) [18] - 当训练延长至1400个epoch,SVG-XL的FID可低至1.92,接近当前顶级生成模型水平 [18][19] - 在推理效率上,5步采样时SVG-XL的gFID为12.26,显著优于SiT-XL(SD-VAE)的69.38和SiT-XL(VA-VAE)的74.46,表明其在较少采样步数下即可达到较好生成质量 [19][20] - 10步采样时,SVG-XL的gFID为9.39(无CFG)和6.49(有CFG),优于对比模型 [20] SVG模型的多任务通用性 - 模型构建的特征空间具备多任务通用能力,不仅用于图像生成,还可直接用于图像分类、语义分割、深度估计等视觉任务,且无需微调编码器 [22] - 在ImageNet-1K图像分类任务中Top-1精度达到81.8%,与原始DINOv3(81.71%)几乎一致 [22][23] - 在ADE20K语义分割任务中mIoU达46.51%,接近专门的分割模型 [22][23] 技术路线对比:SVG与RAE - SVG技术路线旨在兼顾生成与多任务通用,而谢赛宁团队的RAE技术路线则极致聚焦于图像生成性能 [4][11] - RAE直接复用DINOv2、MAE等预训练编码器,不修改编码器结构,仅优化解码器来还原图像细节,并针对性改造扩散模型架构 [9][10] - SVG则主动构建语义与细节融合的特征空间,而非直接复用预训练特征 [12]
13.05亿元技术改造再贷款项目落地重庆长寿
搜狐财经· 2025-06-19 13:16
政策支持 - 中国人民银行增加科技创新和技术改造再贷款额度3000亿元,总额度达8000亿元,以支持"两新"政策和金融"五篇大文章"[1] - 中国人民银行长寿分行瞄准重点企业重点项目,推动重庆市单一主体授信金额最大的再贷款备选清单内项目贷款落地[1] 企业案例 - 川维化工是重庆市备选清单内单一主体技术改造需求金额第三大的企业,是国内最大的天然气精细化工和新材料企业,产品广泛应用于医药、造纸、纺织等领域[2] - 中国人民银行长寿分行联动金融机构上门服务,解读技术改造再贷款和财政贴息政策,并落实专人对接,破解信息不对称[2] 融资成果 - 中国工商银行重庆市分行、交通银行重庆市分行、招商银行重庆分行为川维化工4个项目提供授信合计13.05亿元,签订合同11.87亿元,并实现首笔贷款投放[5] - 通过设备更新和技术改造再贷款、中央财政贴息、技改专项贷财政贴息三重政策优惠,预计为企业节约融资成本约2000万元[5] 项目影响 - 融资支持将助力川维化工向高端防水涂料等高附加值产品方向升级转型,提升其在新材料领域的市场占有率[5] - 中国人民银行长寿分行将持续指导金融机构优化金融服务,落实科技创新和技术改造再贷款政策,支持企业技改升级和高质量发展[5]