MLLMs
搜索文档
舍弃 VAE,预训练语义编码器能让 Diffusion 走得更远吗?
机器之心· 2025-11-02 09:30
舍弃VAE的扩散模型新范式 - 当前主流的隐扩散模型依赖预训练的变分自编码器将图像压缩至紧凑的潜空间,该范式包含VAE编码和潜空间扩散两个核心阶段[8] - VAE已成为下一代生成模型能力提升的主要瓶颈,其计算成本高昂,例如Stable Diffusion 2.1的VAE编码器处理高分辨率图像需要135.59 GFLOPs,超过其扩散U-Net网络的86.37 GFLOPs[8] - VAE的训练目标导致其潜空间存在语义纠缠问题,即不同类别对象特征混乱混合,缺乏清晰边界和聚类结构,这构成生成质量的保真度瓶颈并导致训练低效不稳定[9] - 纽约大学谢赛宁团队的RAE和清华&快手团队的SVG工作均选择弃用VAE,改用预训练语义编码器来构建新范式,以解决语义纠缠、计算效率低及生成与感知任务割裂等问题[9] - RAE提供了一个通用框架,通过将任意冻结的预训练语义编码器与轻量级解码器配对,将扩散模型引入高维但语义丰富的潜空间[9] - SVG提出一种完全无VAE的架构,通过融合冻结的DINOv3语义主干和专用于捕捉细节的残差分支,构建兼具语义判别性与重构保真度的统一表征空间[10] - RAE和SVG的核心思路是将扩散模型从压缩优先转为语义优先,通过继承预训练基础模型的语义丰富表征空间,以解锁更优的效率、生成质量和任务通用性[10] - RAE和SVG均利用海量数据预训练的视觉基础模型所提供的强大先验知识,RAE的核心思想是表征优先,直接继承预训练语义编码器的能力以填补自编码器的语义鸿沟[11] 多模态大语言模型的视觉衰减问题 - 文本主导性跨越图像、视频、音频等不同模态,已成为多模态大语言模型的普遍缺陷[2] - 当推理链延长时,模型的注意力会从视觉Token迁移至语言Token[2] - 跨模态连接值的指数衰减定律影响了视觉信息在深层架构中的有效性[2] - 双通道注意力对齐机制可用于消除模态间的不一致性[2] - VAR方法旨在确保所有推理都基于可追溯的视觉事实[2] AI时代的商业法则与投资趋势 - LinkedIn创始人Reid Hoffman提出AI时代黄金商业法则为懒惰且富有[3] - Hoffman断言万物皆可软件化是硅谷的致命盲区[3] - AI时代的贪婪与懒惰法则可能终结Web 2.0时代先烧钱、后盈利的传统路径[3] - 顶尖大语言模型只能给出B-级共识,这种现象意味着人类专家的价值可能从知识储存库转移到了反共识思维[3] - Hoffman押宝原子世界,显示出对物理世界和数字世界结合领域的投资兴趣[3]