何恺明CVPR最新讲座PPT上线：走向端到端生成建模

CVPR 2024视觉生成建模前沿进展核心观点 - 生成模型可能重现识别模型从逐层训练到端到端训练的历史演进路径，当前主流方法（如扩散模型）仍处于"AlexNet前时代"的多步迭代阶段[36][81] - 何恺明团队提出的MeanFlow框架在单步生成任务上实现突破，1-NFE生成FID达3.43，较之前最佳方法提升50%-70%[101][107][108] - 视觉生成建模正朝着端到端、前馈式方向演进，流匹配（Flow Matching）技术成为关键突破口[59][81] 技术演进路径历史对照 - 识别模型在AlexNet后全面转向端到端训练，取代了DBN/DAE等逐层训练方法[10][15] - 当前生成模型（扩散/自回归）仍依赖多步推理，类似识别模型的"前AlexNet时代"[36] 方法论创新 - 提出平均速度场（Average Velocity）概念替代瞬时速度场，建立MeanFlow Identity理论框架[83][90] - 通过Jacobian-vector product计算时间导数，避免直接积分带来的计算复杂度[92] - 训练损失函数设计包含停止梯度（stopgrad）机制，防止高阶梯度干扰[93][96] 性能突破 ImageNet 256x256实验结果 - MeanFlow-XL/2模型： - 1-NFE生成FID 3.43，较Shortcut-XL/2的10.60提升67%[107] - 2-NFE生成FID 2.20，较iMM-XL/2的7.77提升71%[108] - 参数量与性能呈正相关： - 131M参数版本FID 6.17 → 676M参数版本FID 3.43[103][107] 横向对比 - 显著超越GANs（BigGAN FID 6.43）和自回归模型（MaskGIT FID 6.18）[109] - 接近多步扩散模型性能（DiT-XL/2 250步FID 2.10），但推理步数减少两个数量级[109] 行业研究方向前沿技术路线 - 一致性模型（Consistency Models）系列：iCT/ECT/sCM等改进版本[110] - 双时间变量模型：CTM/Flow Map Matching/Shortcut Models[111] - 归一化流重构：TarFlow等新型架构[113] 开放性问题 - 如何构建不依赖迭代框架的真正端到端生成公式[113] - 神经网络在捕捉隐式轨迹与简化生成过程间的平衡优化[113] - 生成模型的"AlexNet时刻"尚未到来，存在范式创新空间[81][113]