何恺明CVPR 2025报告深度解读：生成模型如何迈向端到端？

生成模型技术演进 - 何恺明在CVPR 2025提出《Towards End-to-End Generative Modeling》，揭示生成模型可能面临类似识别模型"前AlexNet时代"的困境，并提出MeanFlow方法将ImageNet生成从250步迭代压缩到1步完成，FID指标逼近传统多步模型天花板 [1][7][24] - 识别模型经历从逐层训练（如DBN、DAE）到端到端训练（AlexNet）的范式革命，当前生成模型（扩散模型、自回归模型）的多步推理模式与识别模型的逐层训练存在相似性 [2][3][7] - MeanFlow核心创新在于用平均速度替代复杂积分运算，采样公式简化为一步生成，ImageNet 256x256任务中MeanFlow-XL/2在1-NFE设置下FID达3.43，显著优于iCT-XL/2的34.24和Shortcut-XL/2的10.60 [27][31][32] 识别与生成的对偶关系 - 识别是数据到语义的抽象流（具体→抽象），生成是噪声到实例的具象流（抽象→具体），两者构成数据流动的双向过程 [13][15][16] - 本质区别在于识别具有确定映射（如猫图片对应固定标签），而生成需从简单噪声映射到无限可能的数据分布，存在高度非线性 [18][20] 流匹配技术突破 - 流匹配通过构建数据分布的流场实现生成，核心公式建立数据与噪声的连续映射关系，涉及条件速度与边缘速度两个关键概念 [22] - MeanFlow推导出MeanFlow恒等式，直接参数化平均速度并定义损失函数，避免复杂积分运算，训练效率显著提升 [27][29] 前沿研究方向 - 当前研究包括Consistency Models系列（iCT/ECT/sCM）、Two-time-variable Models（CTM/Shortcut Models）、Revisiting Normalizing Flows（TarFlow）等方向 [34] - 开放性问题聚焦如何构建真正适用于端到端生成的公式，MeanFlow虽突破但仍受限于迭代框架，需探索更本质的生成建模方法 [34][35] 生成模型应用进展 - CVPR 2025涌现多模态生成突破：DiffSensei桥接多模态LLM与扩散模型实现定制漫画生成，EX-4D通过深度水密网格合成极端视角4D视频 [36][43] - 视频生成领域出现测试时训练实现的1分钟视频生成（One-Minute Video Generation）、VideoMAR基于连续token的自回归视频生成等技术 [39][48]