RAE(表征自编码器)
搜索文档
LeCun、谢赛宁团队重磅论文:RAE能大规模文生图了,且比VAE更好
机器之心· 2026-01-24 09:53
文章核心观点 - 表征自编码器(RAE)作为一种新的文生图模型基础架构,在多个方面系统性超越了当前主流的变分自编码器(VAE)方案,为大规模文生图提供了更优的范式[4] - RAE通过耦合冻结的预训练视觉编码器与轻量化解码器,在从5亿到近百亿参数的多个尺度上,展现出比VAE更快的收敛速度、更高的训练稳定性以及更强的防过拟合能力[4][19][28] - 该技术路径让视觉理解与生成共享同一套高维语义表征空间,不仅简化了模型设计,也为构建多模态统一模型开辟了新的可能性[4][29][34] 架构设计与技术原理 - RAE采用与VAE截然不同的逻辑:直接使用预训练且冻结的视觉表征编码器(如SigLIP-2)将图像转化为高维语义token,仅训练一个轻量化的ViT解码器进行像素重建[6] - 以SigLIP-2 So400M为例,它将图像转化为16×16个token,每个token维度高达1152,远高于主流VAE方案的通道数(通常小于64),为生成提供了高保真度的语义起点[6] - 针对RAE操作极高维度语义表征的特点,研究团队引入了维度敏感的噪声调度平移(Noise Schedule Shift)以解决传统扩散模型噪声调度因维度灾难而失效的数学难题[14][15] - 当扩散Transformer(DiT)规模扩展至十亿参数以上时,RAE框架中原先为增强小模型能力而设计的复杂结构(如宽扩散头、噪声增强解码)被证明是冗余的,可以进行简化[17][21] 数据策略与模型表现 - 研究团队构建了一个约7300万条数据的大规模数据集,涵盖Web图像、高美感合成图像及专门的文本渲染数据,实验发现数据组成比例对模型性能至关重要[9] - 缺乏针对性文本渲染数据时,模型无法还原清晰字形细节;引入文本专项数据后,其在Text域的rFID分数出现质的飞跃(例如,从2.406降至1.621)[9][10] - 在ImageNet、YFCC和文本三个维度的重建保真度评测中,RAE方案已全面超越文生图领域的标杆SDXL VAE,虽稍逊于顶尖的FLUX VAE,但证明了其框架能适配不同预训练目标的视觉编码器[11][13] - 在从0.5B到9.8B参数的多个DiT尺度上,RAE均稳定且大幅度地优于VAE方案,并且在1.5B LLM与2.4B DiT的基准测试中,达到同等生成质量所需时间仅为VAE的四分之一左右[19][23][25] 训练稳定性与扩展性 - RAE展现出显著的收敛速度优势,在GenEval评测中实现了4.0倍加速,在DPG-Bench上达到4.6倍加速[23] - 在对高质量数据集进行精细化微调时,VAE模型在约64个epoch后出现灾难性过拟合,性能断崖式下跌,而RAE即使微调至256甚至512个epoch仍能保持稳定的生成质量,表现出极强的鲁棒性[4][25][28] - 当语言模型骨干从1.5B升级至7B时,RAE模型能更好地利用更丰富的文本表征,获得进一步的性能跨越,这证明了当生成与理解在同一个语义潜空间中对齐时,更大的语言模型能释放更强的生成潜力[25] 潜在影响与未来展望 - RAE的成功标志着潜向扩散模型正从繁复的结构堆砌回归到更简洁、更本质的语义建模[35] - 理解与生成在同一套语义特征空间中运行,为多模态统一模型打开了想象空间,例如,语言模型无需将图像解码为像素即可直接对扩散模型生成的潜变量进行理解和打分[4][29][36] - 实验显示,在加入生成训练后,模型在MME、MMMU等视觉理解榜单上的性能保持完好甚至略有提升,体现了其“理解能力保全”的特性[36]
VAE时代终结?谢赛宁团队「RAE」登场,表征自编码器或成DiT训练新基石
机器之心· 2025-10-14 16:24
技术突破核心观点 - 纽约大学谢赛宁团队提出表征自编码器(RAE),旨在替代存在10多年的变分自编码器(VAE),作为扩散模型(如DiT)的潜空间基础[1][2] - RAE结合预训练表征编码器(如DINO、SigLIP、MAE)与训练好的解码器,实现高质量重建和语义丰富的潜空间,同时具备可扩展的Transformer架构特性[2] - 该方案展现出明显优势,应成为DiT训练的全新默认方案[6] VAE的局限性 - SD-VAE计算量约为450 GFLOPs,而简单的ViT-B编码器仅需约22 GFLOPs,过时的骨干网络使架构比实际需要的更复杂[4] - VAE的潜空间过度压缩(仅4个通道),限制了可存储的信息量,其压缩作用有限,几乎和原始三通道像素一样受限[4] - VAE仅使用重建任务训练,学到的特征很弱(线性探针精度约8%),导致模型收敛更慢、生成质量下降[4] RAE的重建性能与优势 - 使用冻结预训练表征编码器的RAE在重建质量(rFID)上一致优于SD-VAE,例如使用MAE-B/16的RAE达到0.16的rFID,明显胜过SD-VAE的0.62[18] - 即使小型表征编码器模型也保留足够底层细节供解码,重建质量在DINOv2-S、B、L三种尺寸下保持稳定[19] - 增加解码器容量能持续提升rFID,从ViT-B的0.58提升到ViT-XL的0.49,且ViT-B性能已超过SD-VAE,其GFLOPs效率高出14倍[19] - RAE直接继承底层表征编码器的表征能力,线性探测精度远高于SD-VAE的8%,例如DINOv2-B达84.5%,SigLIP2-B达79.1%[18][20] DiT^DH架构创新 - 针对高维RAE潜空间,研究者提出新的DiT变体DiT^DH,引入浅层但宽度较大的头部结构,使扩散模型在不显著增加二次计算成本的前提下扩展网络宽度[3][32] - DiT^DH的收敛速度比标准DiT快,在计算效率(FLOPs)方面显著优于DiT[34] - DiT^DH在不同规模RAE上保持性能优势,例如在使用DINOv2-L时,将FID从6.09降低至2.73[36] 图像生成性能表现 - DiT^DH-XL在ImageNet数据集上取得优异图像生成效果:在256×256分辨率下,无引导条件FID为1.51;在256×256和512×512分辨率下,有引导条件FID均为1.13[5][41] - 该性能大大优于所有先前扩散模型,在256×256下创下新的最先进FID分数[41] - 当训练计算量达约5×10¹⁰ GFLOPs时,DiT^DH-XL表现已超越REPA-XL、MDTv2-XL和SiT-XL等模型;在5×10¹¹ GFLOPs时实现全场最佳FID,所需计算量仅为基线模型的1/40[43] 技术实现关键点 - 研究证明只要解码器训练得当,冻结表征编码器可作为扩散潜在空间的强大编码器,挑战了其不适合重建任务的假设[11][12] - 为使DiT在RAE潜空间中成功生成,模型宽度必须匹配或超过RAE的Token维度,否则训练失败或性能远逊[24][26] - 采用维度相关的噪声调度偏移,通过缩放因子调整噪声时间步长,在高维潜空间训练时带来显著性能提升[28] - 提出噪声增强解码方案,向干净潜变量注入高斯噪声,增强解码器对扩散模型输出空间的泛化能力,改善生成指标(gFID)[29]
谢赛宁新作:VAE退役,RAE当立
量子位· 2025-10-14 16:16
文章核心观点 - 谢赛宁团队提出表征自编码器RAE将取代变分自动编码器VAE,标志着VAE时代的结束[1][4] - RAE采用预训练表征编码器与轻量级解码器配对,在扩散Transformer模型中实现更高质量重建和更快收敛速度[3][9][19] - 该方法在ImageNet图像生成任务中取得FID 1.51(无引导)和1.13(有引导)的优异表现[6] RAE技术原理与优势 - RAE核心设计是用预训练表征编码器(DINO、SigLIP、MAE等)与训练后的轻量级解码器配对[3] - 无需额外表示对齐损失或辅助损失函数,架构简洁但重建质量超越SD-VAE[9][10] - 提供语义丰富的潜空间,支持可扩展的基于变换器的架构[4] 传统VAE的局限性 - SD-VAE需要约450 GFLOPs运算量,而简易ViT-B编码器仅需22 GFLOPs,架构过于复杂[7] - VAE潜空间过度压缩(只有4个通道),信息容量严重受限[7] - VAE表征能力薄弱,线性探测精度约8%,特征质量低下拖慢收敛速度并损害生成质量[7][11] RAE性能表现 - 在重建质量指标rFID上:DINOv2-B为0.49,SigLIP2-B为0.53,MAE-B为0.16,均优于SD-VAE的0.62[11] - 在表征质量指标Top-1准确率上:DINOv2-B达84.5%,SigLIP2-B达79.1%,MAE-B达68.0%,远高于SD-VAE的8.0%[11] - 收敛速度比基于SD-VAE的REPA快达16倍[19] DiT架构适配与优化 - 采用宽DiT设计,要求变换器宽度至少等于潜表征维度[14] - 调整噪声调度使扩散模型适应增加的输入通道维度[17] - 在解码器训练中注入微量噪声,提升对潜空间扩散误差的鲁棒性[17] - 引入极宽但极浅的扩散头部设计,提升DiT在RAE框架内的可扩展性[21][22]