Workflow
生成建模
icon
搜索文档
何恺明组三位本科生领衔!持续聚焦Flow模型,突破归一化流生成效率瓶颈
量子位· 2025-12-15 12:04
论文核心创新 - 提出名为“双向归一化流”(BiFlow)的新框架,通过解耦前向与逆向过程,打破了传统归一化流(NFs)生成模型效率低下的问题[4] - 核心创新在于打破了“逆向过程必须是前向过程的精确逆运算”这一传统规则,允许逆向模型使用任意架构实现并行化和高效计算[11][14] - 该框架由何恺明团队的三位本科生一作领衔完成,他们分别来自清华姚班和MIT[5] 传统方法的局限与BiFlow的解决方案 - 传统归一化流模型因要求逆向过程是前向过程的精确逆运算,导致两大问题:模型设计受限(无法使用视觉Transformer等通用架构)和推理速度慢(无法并行加速)[12] - BiFlow的解决方案是引入一个可学习的独立逆向模型来近似前向模型的逆映射,从而解除架构约束[13] - 逆向模型可使用非因果的双向Transformer等架构,实现单次前向传递直接从噪声生成图像,无需逐步生成[14][15] 关键技术贡献 - **隐藏层对齐**:提出新的损失函数策略,利用前向过程的完整中间状态轨迹作为监督信号,通过可学习的投影头将逆向模型的中间状态与前向状态对齐,防止模型跑偏[17][18] - **学习去噪**:将去噪步骤直接整合进逆向模型的额外模块中,实现端到端的从噪声到清晰数据的映射,消除了传统方法(如TARFlow)推理时额外的去噪计算开销[20][21] - **训练时无分类器引导**:在训练阶段就引入无分类器引导(CFG),让模型学习以CFG比例为条件进行生成,避免了推理时计算两次前向传播的成本,保持了单步生成(1-NFE)的高效性[22][23] 性能表现 - **生成质量**:在ImageNet 256×256数据集上,BiFlow-B/2模型取得了2.39的FID分数,刷新了目前基于归一化流方法的SOTA(State of the Art)[24] - **推理速度**:相比于基线方法(改进版TARFlow),BiFlow的采样速度提升了两个数量级,在TPU上快697倍[26] - **模型效率**:BiFlow-B/2模型参数量为133M,仅需1次网络函数评估(NFE)即可达到上述性能,在参数量和计算效率上具有优势[25] 扩展应用 - 凭借其双向映射特性,BiFlow无需额外训练即可实现图像修复和类别编辑两类图像编辑任务[28] 研究团队背景 - 论文三位一作均为本科生,其中**陆伊炀**为清华姚班大二学生,在MIT CSAIL实习,导师为何恺明,曾是2022年全国中学生物理竞赛金牌得主[29][31] - **Qiao Sun**为MIT大二本科生,是何恺明课题组的UROP学生,是2023年国际数学奥林匹克竞赛(IMO)金牌得主[31][33] - **王衔邦**今年刚从人大附中毕业进入MIT,导师为何恺明,是2024年IMO金牌得主,并曾获全国信息学奥林匹克竞赛银牌[34][36]
李飞飞团队25年研究大盘点:从视觉理解到具身智能的全景图谱
自动驾驶之心· 2025-11-07 08:05
以下文章来源于深蓝AI ,作者深蓝学院 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 作者 | 深蓝学院 来源 | 深蓝AI 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 导读 斯坦福大学 HAI 研究院(Stanford Institute for Human-Centered AI, HAI)由李飞飞教授领衔,是全球人工智能基础研究与社会治理的重要引领力量。 李飞飞现任斯坦福大学首位红杉讲席教授,美国国家工程院、国家医学院及艺术与科学院三院院士,长期专注于计算机视觉、机器学习、认知神经科学 与环境智能系统等方向。她创建的 ImageNet 数据集及相关研究奠定了深度学习在视觉理解领域的核心基础,并推动了"数据驱动 + 认知启发"的研究范式 在全球范围的普及。 在研究思路上,李飞飞团队始终强调"从算法到系统"的全链路创新,致力于通过多模态融合、可解释学习与跨域感知,实现面向真实世界的智能体建模。近年 来,团队的工作从视觉表征学习延伸至多模态生成、具身 ...