VAE
搜索文档
舍弃 VAE,预训练语义编码器能让 Diffusion 走得更远吗?
机器之心· 2025-11-02 09:30
舍弃VAE的扩散模型新范式 - 当前主流的隐扩散模型依赖预训练的变分自编码器将图像压缩至紧凑的潜空间,该范式包含VAE编码和潜空间扩散两个核心阶段[8] - VAE已成为下一代生成模型能力提升的主要瓶颈,其计算成本高昂,例如Stable Diffusion 2.1的VAE编码器处理高分辨率图像需要135.59 GFLOPs,超过其扩散U-Net网络的86.37 GFLOPs[8] - VAE的训练目标导致其潜空间存在语义纠缠问题,即不同类别对象特征混乱混合,缺乏清晰边界和聚类结构,这构成生成质量的保真度瓶颈并导致训练低效不稳定[9] - 纽约大学谢赛宁团队的RAE和清华&快手团队的SVG工作均选择弃用VAE,改用预训练语义编码器来构建新范式,以解决语义纠缠、计算效率低及生成与感知任务割裂等问题[9] - RAE提供了一个通用框架,通过将任意冻结的预训练语义编码器与轻量级解码器配对,将扩散模型引入高维但语义丰富的潜空间[9] - SVG提出一种完全无VAE的架构,通过融合冻结的DINOv3语义主干和专用于捕捉细节的残差分支,构建兼具语义判别性与重构保真度的统一表征空间[10] - RAE和SVG的核心思路是将扩散模型从压缩优先转为语义优先,通过继承预训练基础模型的语义丰富表征空间,以解锁更优的效率、生成质量和任务通用性[10] - RAE和SVG均利用海量数据预训练的视觉基础模型所提供的强大先验知识,RAE的核心思想是表征优先,直接继承预训练语义编码器的能力以填补自编码器的语义鸿沟[11] 多模态大语言模型的视觉衰减问题 - 文本主导性跨越图像、视频、音频等不同模态,已成为多模态大语言模型的普遍缺陷[2] - 当推理链延长时,模型的注意力会从视觉Token迁移至语言Token[2] - 跨模态连接值的指数衰减定律影响了视觉信息在深层架构中的有效性[2] - 双通道注意力对齐机制可用于消除模态间的不一致性[2] - VAR方法旨在确保所有推理都基于可追溯的视觉事实[2] AI时代的商业法则与投资趋势 - LinkedIn创始人Reid Hoffman提出AI时代黄金商业法则为懒惰且富有[3] - Hoffman断言万物皆可软件化是硅谷的致命盲区[3] - AI时代的贪婪与懒惰法则可能终结Web 2.0时代先烧钱、后盈利的传统路径[3] - 顶尖大语言模型只能给出B-级共识,这种现象意味着人类专家的价值可能从知识储存库转移到了反共识思维[3] - Hoffman押宝原子世界,显示出对物理世界和数字世界结合领域的投资兴趣[3]
Diffusion/VAE/RL 数学原理
自动驾驶之心· 2025-07-29 08:52
Diffusion Model - 扩散模型通过高斯分布的均值(原图提供)和方差(噪声系数提供)进行图像生成 [3] - 模型推导中关键变量α_t与噪声ε_t的线性组合服从N(0,1-α_tα_{t-1})的正态分布 [5] - 网络训练目标是拟合去噪过程中两个高斯分布的均值和方差 [7] - 通过KL散度项拟合理论去噪值与网络预测值 [9] - 将不确定的x_0转化为可预测的噪声ε进行迭代 [15] - 最终模型将分布拟合问题转化为噪声预测问题 [17] VAE模型 - 变分自编码器假设潜在空间服从高斯分布 [19] - 普通自编码器不具备生成能力 [21] - 使用神经网络拟合编码器 [23] - 通过重建损失+KL约束损失避免潜在空间退化 [26] - 最小化KL损失等价于最大化ELBO [27] - 训练过程包含重建损失和KL损失的平衡 [30] 强化学习 - 马尔可夫决策过程描述为状态-动作序列(s1,a1,s2,a2...) [35] - 表征学习分为语义表征(趋近脉冲分布)和生成表征(趋近高斯分布) [36] - 时间差分方法利用后续更准确的结果更新前期估计 [40] - 策略梯度方法学习最优状态-动作转换策略 [42] 自动驾驶行业 - 行业社区规模达4000人,涵盖300+企业和科研机构 [42] - 技术栈覆盖30+方向包括感知/定位/规划控制等领域 [42] - 重点技术包含BEV感知、多传感器融合、轨迹预测等 [42] - 专业课程覆盖端到端自动驾驶、大模型应用等前沿方向 [42]
LeCun发布最新世界模型:首次实现16秒连贯场景预测,具身智能掌握第一视角!还打脸用了VAE
量子位· 2025-06-30 14:38
Meta AI研究进展 - Yann LeCun团队开发PEVA模型,实现具身智能体16秒连贯场景预测能力,模拟人类预判行为[2][6][9] - 模型通过结构化动作表示结合48维关节运动学数据与条件扩散Transformer,捕捉整体移动和关节精细运动[3][16][18] - 采用第一人称视角视频+全身姿态轨迹训练,替代传统抽象控制信号[4][13] 技术架构创新 - 随机时间跳跃训练解决长时序预测效率问题,支持16帧采样窗口内的多尺度动作学习[24][28] - 运动学树结构编码包含骨盆根节点3D平移和15个关节45维欧拉角,总维度48维[25] - 条件扩散Transformer通过跨历史帧注意力机制建模动作延迟效应,LPIPS值比基线低5%-8%[22][34][37] 性能表现 - 单步预测中LPIPS降低0.01,FID降低1.42,生成质量优于CDiT基线[33][35] - 16秒长序列预测FID值比Diffusion Forcing低15%以上,时序连贯性显著提升[38][40] - 支持多动作序列智能规划,如开冰箱任务中排除不合理路径选择最优解[8][42][43] 数据与训练 - 使用Nymeria数据集训练,包含同步第一视角视频与全身动作捕捉数据[26] - 局部坐标系转换实现动作表示的平移/旋转不变性,归一化处理帧间差分数据[25] - VAE编码器用于视觉特征转换,尽管LeCun曾公开批评VAE的局限性[45][46][47]