Workflow
识别模型
icon
搜索文档
何恺明CVPR 2025报告深度解读:生成模型如何迈向端到端?
自动驾驶之心· 2025-06-28 21:34
生成模型技术演进 - 何恺明在CVPR 2025提出《Towards End-to-End Generative Modeling》,揭示生成模型可能面临类似识别模型"前AlexNet时代"的困境,并提出MeanFlow方法将ImageNet生成从250步迭代压缩到1步完成,FID指标逼近传统多步模型天花板 [1][7][24] - 识别模型经历从逐层训练(如DBN、DAE)到端到端训练(AlexNet)的范式革命,当前生成模型(扩散模型、自回归模型)的多步推理模式与识别模型的逐层训练存在相似性 [2][3][7] - MeanFlow核心创新在于用平均速度替代复杂积分运算,采样公式简化为一步生成,ImageNet 256x256任务中MeanFlow-XL/2在1-NFE设置下FID达3.43,显著优于iCT-XL/2的34.24和Shortcut-XL/2的10.60 [27][31][32] 识别与生成的对偶关系 - 识别是数据到语义的抽象流(具体→抽象),生成是噪声到实例的具象流(抽象→具体),两者构成数据流动的双向过程 [13][15][16] - 本质区别在于识别具有确定映射(如猫图片对应固定标签),而生成需从简单噪声映射到无限可能的数据分布,存在高度非线性 [18][20] 流匹配技术突破 - 流匹配通过构建数据分布的流场实现生成,核心公式建立数据与噪声的连续映射关系,涉及条件速度与边缘速度两个关键概念 [22] - MeanFlow推导出MeanFlow恒等式,直接参数化平均速度并定义损失函数,避免复杂积分运算,训练效率显著提升 [27][29] 前沿研究方向 - 当前研究包括Consistency Models系列(iCT/ECT/sCM)、Two-time-variable Models(CTM/Shortcut Models)、Revisiting Normalizing Flows(TarFlow)等方向 [34] - 开放性问题聚焦如何构建真正适用于端到端生成的公式,MeanFlow虽突破但仍受限于迭代框架,需探索更本质的生成建模方法 [34][35] 生成模型应用进展 - CVPR 2025涌现多模态生成突破:DiffSensei桥接多模态LLM与扩散模型实现定制漫画生成,EX-4D通过深度水密网格合成极端视角4D视频 [36][43] - 视频生成领域出现测试时训练实现的1分钟视频生成(One-Minute Video Generation)、VideoMAR基于连续token的自回归视频生成等技术 [39][48]
何恺明CVPR最新讲座PPT上线:走向端到端生成建模
机器之心· 2025-06-19 17:30
CVPR 2024视觉生成建模前沿进展 核心观点 - 生成模型可能重现识别模型从逐层训练到端到端训练的历史演进路径,当前主流方法(如扩散模型)仍处于"AlexNet前时代"的多步迭代阶段[36][81] - 何恺明团队提出的MeanFlow框架在单步生成任务上实现突破,1-NFE生成FID达3.43,较之前最佳方法提升50%-70%[101][107][108] - 视觉生成建模正朝着端到端、前馈式方向演进,流匹配(Flow Matching)技术成为关键突破口[59][81] 技术演进路径 历史对照 - 识别模型在AlexNet后全面转向端到端训练,取代了DBN/DAE等逐层训练方法[10][15] - 当前生成模型(扩散/自回归)仍依赖多步推理,类似识别模型的"前AlexNet时代"[36] 方法论创新 - 提出平均速度场(Average Velocity)概念替代瞬时速度场,建立MeanFlow Identity理论框架[83][90] - 通过Jacobian-vector product计算时间导数,避免直接积分带来的计算复杂度[92] - 训练损失函数设计包含停止梯度(stopgrad)机制,防止高阶梯度干扰[93][96] 性能突破 ImageNet 256x256实验结果 - MeanFlow-XL/2模型: - 1-NFE生成FID 3.43,较Shortcut-XL/2的10.60提升67%[107] - 2-NFE生成FID 2.20,较iMM-XL/2的7.77提升71%[108] - 参数量与性能呈正相关: - 131M参数版本FID 6.17 → 676M参数版本FID 3.43[103][107] 横向对比 - 显著超越GANs(BigGAN FID 6.43)和自回归模型(MaskGIT FID 6.18)[109] - 接近多步扩散模型性能(DiT-XL/2 250步FID 2.10),但推理步数减少两个数量级[109] 行业研究方向 前沿技术路线 - 一致性模型(Consistency Models)系列:iCT/ECT/sCM等改进版本[110] - 双时间变量模型:CTM/Flow Map Matching/Shortcut Models[111] - 归一化流重构:TarFlow等新型架构[113] 开放性问题 - 如何构建不依赖迭代框架的真正端到端生成公式[113] - 神经网络在捕捉隐式轨迹与简化生成过程间的平衡优化[113] - 生成模型的"AlexNet时刻"尚未到来,存在范式创新空间[81][113]