模型「漂移」新范式,何恺明新作让生成模型无须迭代推理
机器之心·2026-02-08 18:37

文章核心观点 - 何恺明研究团队提出了一种名为“漂移模型”的全新生成建模范式 该范式在概念上不同于依赖微分方程的扩散模型与流模型 其核心是通过训练过程中不断演化的推送映射来实现单步推理 从而在保证生成质量的同时大幅提升效率 [3][5][7] - 漂移模型在ImageNet 256×256图像生成任务上取得了突破性性能 在潜空间协议下实现了单步生成FID 1.54 在像素空间协议下实现了单步生成FID 1.61 这两项指标均达到了当前单步生成方法的新SOTA 并且与多步扩散模型相比具有竞争力 [14][24][25] - 该方法通过引入“漂移场”来控制训练过程中样本的移动和分布的演化 其训练目标简单有效 并且对模式坍塌问题表现出良好的鲁棒性 即使在初始化状态不佳时也能稳健收敛到多模态目标分布 [8][11][16][17] - 漂移模型在效率上优势显著 其像素空间模型仅需87G FLOPs即可达到1.61 FID 而性能相近的StyleGAN-XL则需要1574G FLOPs 这为解决生成式AI中质量与效率的权衡问题提供了新路径 有望推动实时应用的发展 [25][26] 生成模型的技术演进与挑战 - 传统生成模型如扩散模型和流模型 其训练和推理过程通常是迭代式的 计算成本高昂 行业为提升效率进行了诸多探索 例如通过蒸馏将多步模型压缩为单步模型 或从零训练单步模型如VAE和正则化流 [2] - 然而 上述方法仍无法完全摆脱迭代训练过程的限制 漂移模型的提出标志着一种概念上的根本性转变 它不依赖于微分方程表述 天然支持一步推理 [2][3] 漂移模型的核心机制 - 漂移模型的核心在于其“推送”映射由一个单次前向的网络表示 该映射在训练过程中不断演化 从而避免了迭代式推理 训练过程通过不断更新网络参数来演化推送分布 使其逼近真实数据分布 [7] - 研究团队引入了一个“漂移场”来控制训练过程中样本的运动 该漂移场依赖于生成分布和数据分布 当两者一致时漂移场为零 系统达到平衡 样本停止漂移 [8] - 漂移场由正样本的均值偏移向量和负样本的均值偏移向量共同决定 生成样本被正样本吸引 同时被负样本排斥 通过最小化生成样本漂移的简单目标函数 驱动分布的演化 [10][11] 实验设计与关键发现 - 在二维玩具示例中 漂移模型能够在不同初始化条件下 稳健地逼近双峰目标分布 且不出现模式坍塌 这直观解释了该方法对模式坍塌的鲁棒性机制 [16][17] - 消融实验表明 漂移场必须满足反对称性设定 破坏此性质会导致性能灾难性下降 例如仅使用吸引力项时FID高达177.14 而默认反对称设置下FID为8.46 [19] - 实验发现 使用更大的正负样本数有助于更准确地估计漂移场 从而提升生成质量 当正负样本数从8增加到64时 FID从11.82改善至8.46 [20] - 特征编码器的质量至关重要 使用更宽的网络或更长的自监督学习训练周期能显著提升性能 例如将编码器宽度从256提升至640 并将训练周期从192延长至1280 FID从8.46大幅改善至4.28 [21] 性能表现与行业对比 - 在ImageNet 256×256潜空间生成任务中 漂移模型的最大尺寸变体取得了单步生成FID 1.54 超过了此前所有基于扩散/流轨迹近似的单步方法 其Base尺寸模型性能即可与之前的XL尺寸模型竞争 [14][23][24] - 在更具挑战性的像素空间生成任务中 漂移模型取得了单步生成FID 1.61 性能超过或可与多步扩散方法竞争 并显著优于其他单步像素空间方法如GAN [14][25] - 效率对比优势明显 漂移模型的像素空间L/16变体仅需87G FLOPs即达到1.61 FID 而达到2.30 FID的StyleGAN-XL需要1574G FLOPs 计算需求大幅降低 [25] 方法意义与行业前景 - 漂移模型解决了生成式AI中质量与效率之间的基本权衡问题 表明在大幅降低计算需求的情况下可以达到与传统优质模型相似的质量 这有可能使以前受推理速度限制的实时应用成为可能 [26] - 该方法强调了鲁棒特征表示在生成建模中的重要性 预训练特征提取器的关键作用表明 自监督学习的进步直接有益于该范式 在表示学习和生成之间建立了协同效应 [21][26] - 该方法在不同领域的成功表明 通过漂移场进行分布演变的核心原理可能广泛适用于各种生成任务 为高效生成建模开辟了新的研究方向 [26]