MeanFlow
搜索文档
何恺明带大二本科生颠覆扩散图像生成:扔掉多步采样和潜空间,一步像素直出
量子位· 2026-02-02 13:58
文章核心观点 - 何恺明团队提出了一种名为Pixel Mean Flow (pMF)的全新生成模型架构,该架构同时实现了单步采样和在原始像素空间操作,从而大幅简化了图像生成流程并提升了效率 [1][2][3] - pMF方法在ImageNet基准测试上取得了当前单步、无潜空间扩散模型的最佳成绩之一,其性能与生成对抗网络(GAN)相当,但计算开销显著降低 [4][27][29] - 该研究标志着生成式人工智能技术正从依赖多步采样和潜空间编码的复杂范式,向更直接、高效的端到端建模范式演进 [36] 技术突破与核心设计 - **架构简化**:pMF成功移除了传统扩散模型/流模型的两大核心组件——多步采样和潜空间编码,实现了从噪声到图像的一步生成 [3][5] - **核心设计思路**:网络直接输出像素级别的去噪图像,但在训练时通过一个从平均速度场变换得到的新场来计算损失,这基于“流形假设”,即预测低维流形上的量比预测高维噪声更容易 [13][14][17] - **关键验证**:在2D玩具模型和高维真实图像(如256×256分辨率,patch维度768)实验中,传统的u-prediction方法完全失效(FID飙升至164.89),而pMF采用的x-prediction方法表现稳定(FID保持在个位数) [20][21][23][24] - **独特优势**:由于直接在像素空间生成,pMF能够自然地引入感知损失进行训练,这在以往是潜空间方法的专属技巧,实验显示加入感知损失后FID从9.56降至3.53,提升约6个点 [25][26] 性能表现与对比 - **ImageNet 256×256分辨率**:pMF-H/16模型取得了2.22的FID分数,大幅超越了此前唯一的同类单步像素空间方法EPG(8.82 FID) [4][27] - **与GAN对比**:pMF-H/16的FID(2.22)与StyleGAN-XL(2.30)相当,但每次前向传播的计算量仅为271 Gflops,是StyleGAN-XL(1574 Gflops)的约17.2%,效率优势明显 [27][29] - **ImageNet 512×512分辨率**:pMF-H/32模型取得了2.48的FID分数,通过采用32×32的大patch尺寸,在保持与低分辨率模型相近计算开销的同时实现了高性能生成 [29][30] - **潜在成本揭示**:文章指出,潜空间方法中VAE解码器的计算开销常被忽略,标准SD-VAE解码器在256分辨率下需310 Gflops,在512分辨率下需1230 Gflops,这一开销已超过pMF整个生成器的计算量 [31] 实验细节与消融研究 - **优化器选择**:实验表明,使用Muon优化器比Adam收敛更快且效果更好 [32] - **时间采样策略**:MeanFlow的全平面采样策略(0 < r < t)至关重要,仅在单线(r=t或r=0)上采样会导致模型失败(FID分别高达194.53和389.28) [33][34] - **预条件器设计**:在高维像素空间场景下,传统的EDM和sCM风格的预条件器设计不如直接的x-prediction方法有效 [33] 行业意义与团队背景 - **技术演进方向**:研究证明了单步无潜空间生成已从“是否可行”进入“如何做得更好”的阶段,鼓励未来对更直接、端到端的生成建模进行探索 [36] - **团队构成**:论文共同一作为四名MIT本科生,其中包括多名国际奥林匹克竞赛(数学、物理)金牌得主,显示了顶尖年轻研究人才在该领域的活跃度 [37][38]
何恺明CVPR最新讲座PPT上线:走向端到端生成建模
机器之心· 2025-06-19 17:30
CVPR 2024视觉生成建模前沿进展 核心观点 - 生成模型可能重现识别模型从逐层训练到端到端训练的历史演进路径,当前主流方法(如扩散模型)仍处于"AlexNet前时代"的多步迭代阶段[36][81] - 何恺明团队提出的MeanFlow框架在单步生成任务上实现突破,1-NFE生成FID达3.43,较之前最佳方法提升50%-70%[101][107][108] - 视觉生成建模正朝着端到端、前馈式方向演进,流匹配(Flow Matching)技术成为关键突破口[59][81] 技术演进路径 历史对照 - 识别模型在AlexNet后全面转向端到端训练,取代了DBN/DAE等逐层训练方法[10][15] - 当前生成模型(扩散/自回归)仍依赖多步推理,类似识别模型的"前AlexNet时代"[36] 方法论创新 - 提出平均速度场(Average Velocity)概念替代瞬时速度场,建立MeanFlow Identity理论框架[83][90] - 通过Jacobian-vector product计算时间导数,避免直接积分带来的计算复杂度[92] - 训练损失函数设计包含停止梯度(stopgrad)机制,防止高阶梯度干扰[93][96] 性能突破 ImageNet 256x256实验结果 - MeanFlow-XL/2模型: - 1-NFE生成FID 3.43,较Shortcut-XL/2的10.60提升67%[107] - 2-NFE生成FID 2.20,较iMM-XL/2的7.77提升71%[108] - 参数量与性能呈正相关: - 131M参数版本FID 6.17 → 676M参数版本FID 3.43[103][107] 横向对比 - 显著超越GANs(BigGAN FID 6.43)和自回归模型(MaskGIT FID 6.18)[109] - 接近多步扩散模型性能(DiT-XL/2 250步FID 2.10),但推理步数减少两个数量级[109] 行业研究方向 前沿技术路线 - 一致性模型(Consistency Models)系列:iCT/ECT/sCM等改进版本[110] - 双时间变量模型:CTM/Flow Map Matching/Shortcut Models[111] - 归一化流重构:TarFlow等新型架构[113] 开放性问题 - 如何构建不依赖迭代框架的真正端到端生成公式[113] - 神经网络在捕捉隐式轨迹与简化生成过程间的平衡优化[113] - 生成模型的"AlexNet时刻"尚未到来,存在范式创新空间[81][113]
何恺明团队又发新作: MeanFlow单步图像生成SOTA,提升达50%
机器之心· 2025-05-21 12:00
核心观点 - 提出了一种名为MeanFlow的单步生成建模框架,通过引入平均速度概念改进现有流匹配方法,在ImageNet 256×256数据集上取得FID 3.43的显著成果[3][5] - 该方法无需预训练、蒸馏或课程学习,完全从头训练,大幅缩小单步与多步扩散/流模型性能差距[7][16] - 在1-NFE生成任务中相对此前最佳方法提升50%-70%,2-NFE生成时FID达2.20,媲美多步模型[16][18] 方法创新 - 用平均速度场(u)替代传统瞬时速度场(v),建立两者间的MeanFlow恒等式:u(z_t,r,t)=v(z_t,t)-(t-r)·du/dt[9][10] - 设计损失函数强制网络满足u与v的数学关系,支持无分类器引导(CFG)且采样无额外成本[4][5] - 模型参数量级从131M到676M可扩展,最大版本MeanFlow-XL/2实现最优效果[17] 实验结果 - ImageNet 256×256任务:1-NFE生成FID 3.43 vs IMM 7.77,2-NFE生成FID 2.20 vs DiT 2.27[16][18] - CIFAR-10无条件生成FID 2.92,与EDM框架的iCT(2.83)、IMM(3.20)等竞争[19] - 消融实验显示lognorm(-0.4,1.0)采样策略和CFG权重2.0时效果最佳[21] 技术突破 - 首次实现单步模型FID低于4.0,1-NFE生成质量超越多数多步模型[5][16] - 理论证明平均速度场可自然整合控制生成的技术,扩展性强[5][10] - 训练效率显著提升,仅需单步推理即可达到多步模型90%以上性能[18]