邓明扬一作论文改写生成范式!何恺明也署名了
量子位·2026-02-05 19:20

论文核心观点 - 何恺明团队提出了一种名为“漂移模型”的全新生成模型范式,其核心创新在于将生成过程中的分布演化从推理阶段转移到了神经网络的训练阶段,从而实现了高质量的单步生成 [1][4] - 该模型通过引入“漂移场”机制,在训练中直接对齐先验分布与真实数据分布,消除了对抗训练的不稳定性,并摆脱了对多步ODE/SDE求解的依赖 [5] - 在ImageNet 256x256基准测试中,漂移模型在单步推理下取得了卓越成绩,证明了其质量可媲美甚至超越需要数百步迭代的传统模型 [5][33] 技术范式创新 - 核心思想转变:将分布的演化从推理阶段的多次迭代,转移到深度学习固有的迭代训练过程中,利用训练过程本身作为分布演化的动力 [12][13][14] - 实现单步生成:由于训练过程已经完成了分布演化,推理时仅需单次前向传播即可生成高质量样本,极大提升了生成速度并降低了计算开销 [18][19] - 物理意义赋予:训练的每一轮迭代被赋予了物理意义,模型参数的更新会直接驱动输出样本在空间中的位移,这种位移被定义为“漂移” [15][16] 漂移场机制 - 核心组件:引入“漂移场”作为作用于训练阶段的函数,用于刻画样本空间的演化趋势并引导样本移动,从而控制推移分布 [5][20] - 工作原理:漂移场计算出给定样本位置的修正位移,该位移为神经网络参数更新提供导航,通过最小化漂移量,强制模型输出与目标分布对齐 [21][22] - 平衡目标:训练目标是建立平衡机制,当生成分布与真实数据分布完全匹配时,漂移场将归于零 [23] 训练方法与损失函数 - 损失函数设计:采用基于梯度停止的损失函数,将当前步的漂移后位置视为冻结目标,驱使模型预测向该目标靠拢,从而间接最小化漂移量 [24] - 训练步骤:1) 从先验分布采样噪声生成样本;2) 从数据集中采样真实样本作为正样本;3) 计算每个样本位置的漂移向量;4) 以(样本+漂移向量)为目标值更新网络参数 [26] - 关键设计:利用MAE或MoCo等预训练自监督模型构建特征空间映射,在更高维的语义层面引导分布匹配,提升生成保真度 [25] 性能与实验结果 - 图像生成性能:在ImageNet 256x256基准测试中,漂移模型在单步推理下,于潜空间取得了1.54 FID,在像素空间取得了1.61 FID [32] - 横向对比:其性能优于许多需要250步迭代推理的传统扩散模型或流匹配模型,刷新了单步生成的纪录 [33] - 泛化能力:在具身智能控制任务中,其单步推理的决策质量可匹配甚至超越需要100步推理的Diffusion Policy,显著降低了实时控制延迟 [34][35] 团队与作者背景 - 第一作者:邓明扬,北京人大附中校友,IMO与IOI双料金牌得主,MIT博士二年级学生,师从何恺明 [2][38][40][41][42] - 其他作者:包括清华姚班校友李赫、黎天鸿,以及现任哈佛大学助理教授的Yilun Du,团队阵容强大 [44][45][46]