Workflow
Diffusion
icon
搜索文档
舍弃 VAE,预训练语义编码器能让 Diffusion 走得更远吗?
机器之心· 2025-11-02 09:30
舍弃VAE的扩散模型新范式 - 当前主流的隐扩散模型依赖预训练的变分自编码器将图像压缩至紧凑的潜空间,该范式包含VAE编码和潜空间扩散两个核心阶段[8] - VAE已成为下一代生成模型能力提升的主要瓶颈,其计算成本高昂,例如Stable Diffusion 2.1的VAE编码器处理高分辨率图像需要135.59 GFLOPs,超过其扩散U-Net网络的86.37 GFLOPs[8] - VAE的训练目标导致其潜空间存在语义纠缠问题,即不同类别对象特征混乱混合,缺乏清晰边界和聚类结构,这构成生成质量的保真度瓶颈并导致训练低效不稳定[9] - 纽约大学谢赛宁团队的RAE和清华&快手团队的SVG工作均选择弃用VAE,改用预训练语义编码器来构建新范式,以解决语义纠缠、计算效率低及生成与感知任务割裂等问题[9] - RAE提供了一个通用框架,通过将任意冻结的预训练语义编码器与轻量级解码器配对,将扩散模型引入高维但语义丰富的潜空间[9] - SVG提出一种完全无VAE的架构,通过融合冻结的DINOv3语义主干和专用于捕捉细节的残差分支,构建兼具语义判别性与重构保真度的统一表征空间[10] - RAE和SVG的核心思路是将扩散模型从压缩优先转为语义优先,通过继承预训练基础模型的语义丰富表征空间,以解锁更优的效率、生成质量和任务通用性[10] - RAE和SVG均利用海量数据预训练的视觉基础模型所提供的强大先验知识,RAE的核心思想是表征优先,直接继承预训练语义编码器的能力以填补自编码器的语义鸿沟[11] 多模态大语言模型的视觉衰减问题 - 文本主导性跨越图像、视频、音频等不同模态,已成为多模态大语言模型的普遍缺陷[2] - 当推理链延长时,模型的注意力会从视觉Token迁移至语言Token[2] - 跨模态连接值的指数衰减定律影响了视觉信息在深层架构中的有效性[2] - 双通道注意力对齐机制可用于消除模态间的不一致性[2] - VAR方法旨在确保所有推理都基于可追溯的视觉事实[2] AI时代的商业法则与投资趋势 - LinkedIn创始人Reid Hoffman提出AI时代黄金商业法则为懒惰且富有[3] - Hoffman断言万物皆可软件化是硅谷的致命盲区[3] - AI时代的贪婪与懒惰法则可能终结Web 2.0时代先烧钱、后盈利的传统路径[3] - 顶尖大语言模型只能给出B-级共识,这种现象意味着人类专家的价值可能从知识储存库转移到了反共识思维[3] - Hoffman押宝原子世界,显示出对物理世界和数字世界结合领域的投资兴趣[3]
Diffusion 一定比自回归更有机会实现大一统吗?
机器之心· 2025-08-31 09:30
Diffusion架构与自回归架构在多模态大一统模型中的对比 - 多模态能力被视为实现人类级别智能的必要条件 构建大一统模型成为关键目标 旨在用单一架构统一处理文本 图像 音频 视频 3D模型及机器人动作信号等异构数据类型[8] - 自回归架构长期主导多模态领域 Transformer系列LLM从NLP扩展至多模态 催生LLaVa Qwen-VL InternVL Ovis和GPT4等模型[8] - 扩散架构原主要应用于视觉生成领域 如Stable Diffusion和DiT 但近期扩散语言模型在NLP任务突破 重新引发对其实现多模态大一统潜力的关注[8] Diffusion架构的理论优势与潜力 - 扩散范式天然支持并行生成 精细化控制和动态感知 这些是自回归模型难以实现的能力[9] - 离散扩散架构被强调为替代自回归实现多模态统一处理的潜在方案[9] - 扩散语言模型通过并行生成和迭代式去噪解决自回归模型推理速度瓶颈 具有扩展至其他模态的潜力[9] 生成式建模的信息论基础 - 自回归模型本质是预测下一个token 通过最小化序列描述长度实现无损压缩 尤其适应NLP任务[9] - 多模态自回归模型需将输入转换为一维序列 早期使用双编码器架构分别处理图像文本 后转向仅解码器架构并通过连接器转换图像嵌入[10] - 扩散架构本质是纠错机制 正向加噪和反向去噪过程同样构成强大压缩框架 且支持两种压缩模式[11]