Workflow
SDXL VAE
icon
搜索文档
LeCun、谢赛宁团队重磅论文:RAE能大规模文生图了,且比VAE更好
机器之心· 2026-01-24 09:53
文章核心观点 - 表征自编码器(RAE)作为一种新的文生图模型基础架构,在多个方面系统性超越了当前主流的变分自编码器(VAE)方案,为大规模文生图提供了更优的范式[4] - RAE通过耦合冻结的预训练视觉编码器与轻量化解码器,在从5亿到近百亿参数的多个尺度上,展现出比VAE更快的收敛速度、更高的训练稳定性以及更强的防过拟合能力[4][19][28] - 该技术路径让视觉理解与生成共享同一套高维语义表征空间,不仅简化了模型设计,也为构建多模态统一模型开辟了新的可能性[4][29][34] 架构设计与技术原理 - RAE采用与VAE截然不同的逻辑:直接使用预训练且冻结的视觉表征编码器(如SigLIP-2)将图像转化为高维语义token,仅训练一个轻量化的ViT解码器进行像素重建[6] - 以SigLIP-2 So400M为例,它将图像转化为16×16个token,每个token维度高达1152,远高于主流VAE方案的通道数(通常小于64),为生成提供了高保真度的语义起点[6] - 针对RAE操作极高维度语义表征的特点,研究团队引入了维度敏感的噪声调度平移(Noise Schedule Shift)以解决传统扩散模型噪声调度因维度灾难而失效的数学难题[14][15] - 当扩散Transformer(DiT)规模扩展至十亿参数以上时,RAE框架中原先为增强小模型能力而设计的复杂结构(如宽扩散头、噪声增强解码)被证明是冗余的,可以进行简化[17][21] 数据策略与模型表现 - 研究团队构建了一个约7300万条数据的大规模数据集,涵盖Web图像、高美感合成图像及专门的文本渲染数据,实验发现数据组成比例对模型性能至关重要[9] - 缺乏针对性文本渲染数据时,模型无法还原清晰字形细节;引入文本专项数据后,其在Text域的rFID分数出现质的飞跃(例如,从2.406降至1.621)[9][10] - 在ImageNet、YFCC和文本三个维度的重建保真度评测中,RAE方案已全面超越文生图领域的标杆SDXL VAE,虽稍逊于顶尖的FLUX VAE,但证明了其框架能适配不同预训练目标的视觉编码器[11][13] - 在从0.5B到9.8B参数的多个DiT尺度上,RAE均稳定且大幅度地优于VAE方案,并且在1.5B LLM与2.4B DiT的基准测试中,达到同等生成质量所需时间仅为VAE的四分之一左右[19][23][25] 训练稳定性与扩展性 - RAE展现出显著的收敛速度优势,在GenEval评测中实现了4.0倍加速,在DPG-Bench上达到4.6倍加速[23] - 在对高质量数据集进行精细化微调时,VAE模型在约64个epoch后出现灾难性过拟合,性能断崖式下跌,而RAE即使微调至256甚至512个epoch仍能保持稳定的生成质量,表现出极强的鲁棒性[4][25][28] - 当语言模型骨干从1.5B升级至7B时,RAE模型能更好地利用更丰富的文本表征,获得进一步的性能跨越,这证明了当生成与理解在同一个语义潜空间中对齐时,更大的语言模型能释放更强的生成潜力[25] 潜在影响与未来展望 - RAE的成功标志着潜向扩散模型正从繁复的结构堆砌回归到更简洁、更本质的语义建模[35] - 理解与生成在同一套语义特征空间中运行,为多模态统一模型打开了想象空间,例如,语言模型无需将图像解码为像素即可直接对扩散模型生成的潜变量进行理解和打分[4][29][36] - 实验显示,在加入生成训练后,模型在MME、MMMU等视觉理解榜单上的性能保持完好甚至略有提升,体现了其“理解能力保全”的特性[36]