Workflow
预训练视觉表征
icon
搜索文档
RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取
机器之心· 2025-11-13 18:03
技术突破核心观点 - 近期研究提出利用冻结的预训练视觉模型特征直接构建潜空间,以提升扩散模型性能,代表技术为RAE和VFM-VAE [2] - VFM-VAE结合了VAE的概率建模机制,将高维预训练特征压缩为低维潜空间表示,系统性地研究了压缩条件下预训练视觉表征对LDM系统的影响 [2] - 该方法通过直接集成冻结的基础视觉模型作为Tokenizer,显著加速模型收敛并提升生成质量,展示了LDM Tokenizer从像素压缩迈向语义表征的演化方向 [2][5] 行业背景与技术挑战 - 扩散模型和多模态生成系统的性能上限日益受限于视觉分词器的表达能力 [6] - 传统蒸馏式方法(如VA-VAE)在有限数据集上训练,在语义保持扰动下容易失稳,导致潜空间表示偏移和系统稳健性下降 [6] - 研究团队提出SE-CKNNA指标,用于量化潜空间与基础视觉模型特征之间的一致性,并评估其对生成性能的影响 [7] VFM-VAE技术方案与架构 - 为解决基础视觉模型高层特征缺乏精确空间结构信息的问题,设计了两阶段解码框架,兼顾语义压缩与像素还原 [13] - 编码侧通过冻结基础视觉模型提取多层语义特征,并利用轻量投影模块映射到潜空间z [14] - 解码器采用多尺度潜特征融合结构,将z分为语义分支和空间分支,分别提供全局风格控制和布局确定 [14] - 使用调制式卷积块与层级式ToRGB输出,在8×8至256×256的金字塔结构中逐级恢复细节 [14] 性能表现与效率优势 - 在ImageNet 256×256上,VFM-VAE在相同训练阶段实现gFID 3.80(without CFG),优于蒸馏路线的5.14 [23] - 与显式对齐机制结合后,仅用80 epochs即可达到gFID 2.22(without CFG),训练效率较蒸馏式Tokenizer系统提升约10倍 [23] - 在文生图任务中,VFM-VAE + BLIP3-o在DPG-Bench上得分59.1,较VA-VAE提升明显;在MJHQ-30K上gFID降至16.98(蒸馏路线为23.00) [23] 行业比较与竞争定位 - 实验数据显示,VFM-VAE在仅使用44M图像训练时,其CKNNA指标相对变化为+1.6%,而VA-VAE(使用160M图像)为-33.2%,表明VFM-VAE在扰动下具有更好的稳健性 [11] - 在生成性能对比中,VFM-VAE结合不同生成模型(如REG、LightningDiT)在多个训练周期下均展现出竞争力的gFID和IST分数 [24] - VFM-VAE将VAE从传统的压缩与还原工具,转化为理解与生成的统一桥梁,使语义在潜空间中得到显式建模与传递 [28]