平均速度

搜索文档
何恺明等新作大道至简,瞬时速度改为平均速度,一步生成表现提升70%
量子位· 2025-05-21 14:31
研究团队与背景 - 研究团队由CMU博士生耿正阳作为第一作者,何恺明的学生邓明扬、白行健参与[2] - 团队来自MIT和CMU,耿正阳导师是Zico Kolter,曾在Meta Reality Labs实习[21][22] - 邓明扬本科就读MIT数学和计算机科学,研究方向为生成式基础模型[23] - 白行健拥有牛津大学数学与计算机科学学位,研究方向为物理启发式生成模型[23] 技术创新与模型框架 - 提出MeanFlow单步生成框架,引入平均速度概念替代传统瞬时速度[5][7] - 平均速度定义为位移与时间间隔的比率,与瞬时速度存在明确数学联系[7][9] - 模型完全从头训练,无需预训练、蒸馏或课程学习[3][10] - 通过jvp计算实现单次后向传递,训练开销低于总时间20%[11] 性能表现与实验结果 - 在256×256 ImageNet上实现3.43的FID值,相对优势达50%-70%[3][13] - 1-NFE生成时FID显著优于流匹配方法(328.91→61.06)[15] - 模型规模扩展性良好,XL版本参数676M时FID达3.43[16][19] - 2-NFE生成时FID进一步降至2.20,缩小与多步模型的差距[19] 行业对比与定位 - 1-NFE性能超越BigGAN(6.95)、接近GigaGAN(3.45)[19] - 优于多数扩散模型如ADM(10.94)、LDM-4-G(3.60)[19] - 与当前SOTA模型DiT-XL/2(2.27)、SiT-XL/2(2.06)仍存差距[19] - 在自回归模型对比中优于MaskGIT(6.18)[19] 理论意义与应用前景 - 研究涉及物理领域多尺度模拟问题,可应用于空间/时间尺度建模[20] - 方法为生成建模、动力系统研究搭建桥梁[20] - 技术路线可能启发计算机图形学、科学计算等领域[20]
何恺明团队又发新作: MeanFlow单步图像生成SOTA,提升达50%
机器之心· 2025-05-21 12:00
核心观点 - 提出了一种名为MeanFlow的单步生成建模框架,通过引入平均速度概念改进现有流匹配方法,在ImageNet 256×256数据集上取得FID 3.43的显著成果[3][5] - 该方法无需预训练、蒸馏或课程学习,完全从头训练,大幅缩小单步与多步扩散/流模型性能差距[7][16] - 在1-NFE生成任务中相对此前最佳方法提升50%-70%,2-NFE生成时FID达2.20,媲美多步模型[16][18] 方法创新 - 用平均速度场(u)替代传统瞬时速度场(v),建立两者间的MeanFlow恒等式:u(z_t,r,t)=v(z_t,t)-(t-r)·du/dt[9][10] - 设计损失函数强制网络满足u与v的数学关系,支持无分类器引导(CFG)且采样无额外成本[4][5] - 模型参数量级从131M到676M可扩展,最大版本MeanFlow-XL/2实现最优效果[17] 实验结果 - ImageNet 256×256任务:1-NFE生成FID 3.43 vs IMM 7.77,2-NFE生成FID 2.20 vs DiT 2.27[16][18] - CIFAR-10无条件生成FID 2.92,与EDM框架的iCT(2.83)、IMM(3.20)等竞争[19] - 消融实验显示lognorm(-0.4,1.0)采样策略和CFG权重2.0时效果最佳[21] 技术突破 - 首次实现单步模型FID低于4.0,1-NFE生成质量超越多数多步模型[5][16] - 理论证明平均速度场可自然整合控制生成的技术,扩展性强[5][10] - 训练效率显著提升,仅需单步推理即可达到多步模型90%以上性能[18]