Workflow
MeanFlow
icon
搜索文档
何恺明CVPR最新讲座PPT上线:走向端到端生成建模
机器之心· 2025-06-19 17:30
CVPR 2024视觉生成建模前沿进展 核心观点 - 生成模型可能重现识别模型从逐层训练到端到端训练的历史演进路径,当前主流方法(如扩散模型)仍处于"AlexNet前时代"的多步迭代阶段[36][81] - 何恺明团队提出的MeanFlow框架在单步生成任务上实现突破,1-NFE生成FID达3.43,较之前最佳方法提升50%-70%[101][107][108] - 视觉生成建模正朝着端到端、前馈式方向演进,流匹配(Flow Matching)技术成为关键突破口[59][81] 技术演进路径 历史对照 - 识别模型在AlexNet后全面转向端到端训练,取代了DBN/DAE等逐层训练方法[10][15] - 当前生成模型(扩散/自回归)仍依赖多步推理,类似识别模型的"前AlexNet时代"[36] 方法论创新 - 提出平均速度场(Average Velocity)概念替代瞬时速度场,建立MeanFlow Identity理论框架[83][90] - 通过Jacobian-vector product计算时间导数,避免直接积分带来的计算复杂度[92] - 训练损失函数设计包含停止梯度(stopgrad)机制,防止高阶梯度干扰[93][96] 性能突破 ImageNet 256x256实验结果 - MeanFlow-XL/2模型: - 1-NFE生成FID 3.43,较Shortcut-XL/2的10.60提升67%[107] - 2-NFE生成FID 2.20,较iMM-XL/2的7.77提升71%[108] - 参数量与性能呈正相关: - 131M参数版本FID 6.17 → 676M参数版本FID 3.43[103][107] 横向对比 - 显著超越GANs(BigGAN FID 6.43)和自回归模型(MaskGIT FID 6.18)[109] - 接近多步扩散模型性能(DiT-XL/2 250步FID 2.10),但推理步数减少两个数量级[109] 行业研究方向 前沿技术路线 - 一致性模型(Consistency Models)系列:iCT/ECT/sCM等改进版本[110] - 双时间变量模型:CTM/Flow Map Matching/Shortcut Models[111] - 归一化流重构:TarFlow等新型架构[113] 开放性问题 - 如何构建不依赖迭代框架的真正端到端生成公式[113] - 神经网络在捕捉隐式轨迹与简化生成过程间的平衡优化[113] - 生成模型的"AlexNet时刻"尚未到来,存在范式创新空间[81][113]
何恺明团队又发新作: MeanFlow单步图像生成SOTA,提升达50%
机器之心· 2025-05-21 12:00
核心观点 - 提出了一种名为MeanFlow的单步生成建模框架,通过引入平均速度概念改进现有流匹配方法,在ImageNet 256×256数据集上取得FID 3.43的显著成果[3][5] - 该方法无需预训练、蒸馏或课程学习,完全从头训练,大幅缩小单步与多步扩散/流模型性能差距[7][16] - 在1-NFE生成任务中相对此前最佳方法提升50%-70%,2-NFE生成时FID达2.20,媲美多步模型[16][18] 方法创新 - 用平均速度场(u)替代传统瞬时速度场(v),建立两者间的MeanFlow恒等式:u(z_t,r,t)=v(z_t,t)-(t-r)·du/dt[9][10] - 设计损失函数强制网络满足u与v的数学关系,支持无分类器引导(CFG)且采样无额外成本[4][5] - 模型参数量级从131M到676M可扩展,最大版本MeanFlow-XL/2实现最优效果[17] 实验结果 - ImageNet 256×256任务:1-NFE生成FID 3.43 vs IMM 7.77,2-NFE生成FID 2.20 vs DiT 2.27[16][18] - CIFAR-10无条件生成FID 2.92,与EDM框架的iCT(2.83)、IMM(3.20)等竞争[19] - 消融实验显示lognorm(-0.4,1.0)采样策略和CFG权重2.0时效果最佳[21] 技术突破 - 首次实现单步模型FID低于4.0,1-NFE生成质量超越多数多步模型[5][16] - 理论证明平均速度场可自然整合控制生成的技术,扩展性强[5][10] - 训练效率显著提升,仅需单步推理即可达到多步模型90%以上性能[18]