论文核心创新 - 提出名为“双向归一化流”(BiFlow)的新框架,通过解耦前向与逆向过程,打破了传统归一化流(NFs)生成模型效率低下的问题[4] - 核心创新在于打破了“逆向过程必须是前向过程的精确逆运算”这一传统规则,允许逆向模型使用任意架构实现并行化和高效计算[11][14] - 该框架由何恺明团队的三位本科生一作领衔完成,他们分别来自清华姚班和MIT[5] 传统方法的局限与BiFlow的解决方案 - 传统归一化流模型因要求逆向过程是前向过程的精确逆运算,导致两大问题:模型设计受限(无法使用视觉Transformer等通用架构)和推理速度慢(无法并行加速)[12] - BiFlow的解决方案是引入一个可学习的独立逆向模型来近似前向模型的逆映射,从而解除架构约束[13] - 逆向模型可使用非因果的双向Transformer等架构,实现单次前向传递直接从噪声生成图像,无需逐步生成[14][15] 关键技术贡献 - 隐藏层对齐:提出新的损失函数策略,利用前向过程的完整中间状态轨迹作为监督信号,通过可学习的投影头将逆向模型的中间状态与前向状态对齐,防止模型跑偏[17][18] - 学习去噪:将去噪步骤直接整合进逆向模型的额外模块中,实现端到端的从噪声到清晰数据的映射,消除了传统方法(如TARFlow)推理时额外的去噪计算开销[20][21] - 训练时无分类器引导:在训练阶段就引入无分类器引导(CFG),让模型学习以CFG比例为条件进行生成,避免了推理时计算两次前向传播的成本,保持了单步生成(1-NFE)的高效性[22][23] 性能表现 - 生成质量:在ImageNet 256×256数据集上,BiFlow-B/2模型取得了2.39的FID分数,刷新了目前基于归一化流方法的SOTA(State of the Art)[24] - 推理速度:相比于基线方法(改进版TARFlow),BiFlow的采样速度提升了两个数量级,在TPU上快697倍[26] - 模型效率:BiFlow-B/2模型参数量为133M,仅需1次网络函数评估(NFE)即可达到上述性能,在参数量和计算效率上具有优势[25] 扩展应用 - 凭借其双向映射特性,BiFlow无需额外训练即可实现图像修复和类别编辑两类图像编辑任务[28] 研究团队背景 - 论文三位一作均为本科生,其中陆伊炀为清华姚班大二学生,在MIT CSAIL实习,导师为何恺明,曾是2022年全国中学生物理竞赛金牌得主[29][31] - Qiao Sun为MIT大二本科生,是何恺明课题组的UROP学生,是2023年国际数学奥林匹克竞赛(IMO)金牌得主[31][33] - 王衔邦今年刚从人大附中毕业进入MIT,导师为何恺明,是2024年IMO金牌得主,并曾获全国信息学奥林匹克竞赛银牌[34][36]
何恺明组三位本科生领衔!持续聚焦Flow模型,突破归一化流生成效率瓶颈
量子位·2025-12-15 12:04