何恺明带大二本科生颠覆扩散图像生成:扔掉多步采样和潜空间,一步像素直出
量子位·2026-02-02 13:58

文章核心观点 - 何恺明团队提出了一种名为Pixel Mean Flow (pMF)的全新生成模型架构,该架构同时实现了单步采样和在原始像素空间操作,从而大幅简化了图像生成流程并提升了效率 [1][2][3] - pMF方法在ImageNet基准测试上取得了当前单步、无潜空间扩散模型的最佳成绩之一,其性能与生成对抗网络(GAN)相当,但计算开销显著降低 [4][27][29] - 该研究标志着生成式人工智能技术正从依赖多步采样和潜空间编码的复杂范式,向更直接、高效的端到端建模范式演进 [36] 技术突破与核心设计 - 架构简化:pMF成功移除了传统扩散模型/流模型的两大核心组件——多步采样和潜空间编码,实现了从噪声到图像的一步生成 [3][5] - 核心设计思路:网络直接输出像素级别的去噪图像,但在训练时通过一个从平均速度场变换得到的新场来计算损失,这基于“流形假设”,即预测低维流形上的量比预测高维噪声更容易 [13][14][17] - 关键验证:在2D玩具模型和高维真实图像(如256×256分辨率,patch维度768)实验中,传统的u-prediction方法完全失效(FID飙升至164.89),而pMF采用的x-prediction方法表现稳定(FID保持在个位数) [20][21][23][24] - 独特优势:由于直接在像素空间生成,pMF能够自然地引入感知损失进行训练,这在以往是潜空间方法的专属技巧,实验显示加入感知损失后FID从9.56降至3.53,提升约6个点 [25][26] 性能表现与对比 - ImageNet 256×256分辨率:pMF-H/16模型取得了2.22的FID分数,大幅超越了此前唯一的同类单步像素空间方法EPG(8.82 FID) [4][27] - 与GAN对比:pMF-H/16的FID(2.22)与StyleGAN-XL(2.30)相当,但每次前向传播的计算量仅为271 Gflops,是StyleGAN-XL(1574 Gflops)的约17.2%,效率优势明显 [27][29] - ImageNet 512×512分辨率:pMF-H/32模型取得了2.48的FID分数,通过采用32×32的大patch尺寸,在保持与低分辨率模型相近计算开销的同时实现了高性能生成 [29][30] - 潜在成本揭示:文章指出,潜空间方法中VAE解码器的计算开销常被忽略,标准SD-VAE解码器在256分辨率下需310 Gflops,在512分辨率下需1230 Gflops,这一开销已超过pMF整个生成器的计算量 [31] 实验细节与消融研究 - 优化器选择:实验表明,使用Muon优化器比Adam收敛更快且效果更好 [32] - 时间采样策略:MeanFlow的全平面采样策略(0 < r < t)至关重要,仅在单线(r=t或r=0)上采样会导致模型失败(FID分别高达194.53和389.28) [33][34] - 预条件器设计:在高维像素空间场景下,传统的EDM和sCM风格的预条件器设计不如直接的x-prediction方法有效 [33] 行业意义与团队背景 - 技术演进方向:研究证明了单步无潜空间生成已从“是否可行”进入“如何做得更好”的阶段,鼓励未来对更直接、端到端的生成建模进行探索 [36] - 团队构成:论文共同一作为四名MIT本科生,其中包括多名国际奥林匹克竞赛(数学、物理)金牌得主,显示了顶尖年轻研究人才在该领域的活跃度 [37][38]