一步生成

搜索文档
何恺明等新作大道至简,瞬时速度改为平均速度,一步生成表现提升70%
量子位· 2025-05-21 14:31
研究团队与背景 - 研究团队由CMU博士生耿正阳作为第一作者,何恺明的学生邓明扬、白行健参与[2] - 团队来自MIT和CMU,耿正阳导师是Zico Kolter,曾在Meta Reality Labs实习[21][22] - 邓明扬本科就读MIT数学和计算机科学,研究方向为生成式基础模型[23] - 白行健拥有牛津大学数学与计算机科学学位,研究方向为物理启发式生成模型[23] 技术创新与模型框架 - 提出MeanFlow单步生成框架,引入平均速度概念替代传统瞬时速度[5][7] - 平均速度定义为位移与时间间隔的比率,与瞬时速度存在明确数学联系[7][9] - 模型完全从头训练,无需预训练、蒸馏或课程学习[3][10] - 通过jvp计算实现单次后向传递,训练开销低于总时间20%[11] 性能表现与实验结果 - 在256×256 ImageNet上实现3.43的FID值,相对优势达50%-70%[3][13] - 1-NFE生成时FID显著优于流匹配方法(328.91→61.06)[15] - 模型规模扩展性良好,XL版本参数676M时FID达3.43[16][19] - 2-NFE生成时FID进一步降至2.20,缩小与多步模型的差距[19] 行业对比与定位 - 1-NFE性能超越BigGAN(6.95)、接近GigaGAN(3.45)[19] - 优于多数扩散模型如ADM(10.94)、LDM-4-G(3.60)[19] - 与当前SOTA模型DiT-XL/2(2.27)、SiT-XL/2(2.06)仍存差距[19] - 在自回归模型对比中优于MaskGIT(6.18)[19] 理论意义与应用前景 - 研究涉及物理领域多尺度模拟问题,可应用于空间/时间尺度建模[20] - 方法为生成建模、动力系统研究搭建桥梁[20] - 技术路线可能启发计算机图形学、科学计算等领域[20]