Workflow
DiffusionNFT
icon
搜索文档
DiffusionNFT:扩散强化学习新范式,训练效率提升25倍
具身智能之心· 2025-10-09 08:04
编辑丨 机器之心 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 清华大学朱军教授团队, NVIDIA Deep Imagination 研究组与斯坦福 Stefano Ermon 团队联合提出了一种全新的扩散模型强化学习(RL)范式 —— Diffusion Negative-aware FineTuning (DiffusionNFT) 。该方法首次突破现有 RL 对扩散模型的基本假设,直接在 前向加噪过程(forward process) 上进行优化,在彻底摆 脱似然估计与特定采样器依赖的同时,显著提升了训练效率与生成质量。文章共同一作郑凯文和陈华玉为清华大学计算机系博士生。 论文标题:DiffusionNFT: Online Diffusion Reinforcement with Forward Process 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 论文链接:https://arxiv.org/abs/2509.16117 代码仓库:https://github.com/NVla ...
清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍
机器之心· 2025-10-07 08:14
核心观点 - 清华大学、NVIDIA及斯坦福团队联合提出了一种名为DiffusionNFT的全新扩散模型强化学习范式,该方法通过将强化学习直接作用于前向加噪过程,突破了现有方法的根本局限,在训练效率与生成质量上取得显著提升[2] 背景与现有方法困境 - 现有将强化学习应用于扩散模型的方法(如FlowGRPO)存在多重根本性局限[4] - 局限一:扩散模型的似然只能以高开销近似,导致强化学习优化过程存在系统性偏差[5] - 局限二:现有方法仅在反向去噪过程优化,未约束前向加噪过程的一致性,训练后模型可能退化为与前向不一致的级联高斯[5] - 局限三:需要依赖特定的一阶SDE采样器,无法充分发挥ODE或高阶求解器在效率与质量上的优势[6] - 局限四:现有方案集成无分类器引导时需对双模型进行优化,效率低下[7] 方法创新 - DiffusionNFT提出了全新思路:将强化学习直接作用于扩散的前向加噪过程,而非反向去噪轨迹,带来范式性转变[9] - 核心机制包括正负对比的改进方向,利用奖励信号划分正负样本,定义隐式的“改进方向”,显式利用负样本信号使模型避开低质量区域[10] - 采用负例感知微调,通过隐式参数化方式从目标模型同时定义正向与负向策略,将正负分布对比转化为单一网络的训练目标,无需额外判别器或引导模型[11] - 提出强化指导,将优化目标刻画为对旧策略分布的偏移量,过程与无分类器引导类似,但不依赖双模型结构,而是内生于训练目标中[12] 方法优势 - 优势一:训练目标严格符合扩散的Fokker–Planck方程,不破坏与前向过程的一致性,训练后模型仍是良定义的扩散模型[13] - 优势二:训练与采样彻底解耦,可使用任意黑盒ODE/SDE求解器,摆脱对一阶SDE的依赖;训练时只需存储最终样本与对应奖励值,无需整条采样轨迹[13] - 优势三:不再需要变分下界或反向轨迹似然估计,训练只依赖生成图像与奖励[14] - 优势四:直接学习到奖励引导的生成能力,避免无分类器引导的推理开销,同时仍可兼容无分类器引导以进一步提升性能[15] 实验结果 - 在GenEval任务上,DiffusionNFT仅需1千步即可将得分从0.24提升至0.98,而FlowGRPO需超过5千步才能达到0.95[17] - 整体上,DiffusionNFT在不同任务上表现出3倍至25倍的训练效率优势[17] - 即便完全不依赖无分类器引导,DiffusionNFT也能在美感、对齐度等方面显著优于原始模型[19] - 在SD3.5-Medium模型上同时优化多种奖励,最终模型在所有指标上均超越原始模型,与只针对单一奖励优化的FlowGRPO持平,并超过更大规模的SD3.5-L与FLUX.1-Dev模型[19] 研究意义与展望 - DiffusionNFT为扩散模型的强化学习提供了一个高效、简洁且理论完备的新框架,对更广泛的生成模型对齐研究具有启发意义[21] - 该方法展示了“负例感知”与“前向一致性”的普适价值,打破了似然估计与反向轨迹的限制,建立起监督学习与强化学习之间的桥梁[21] - 未来,DiffusionNFT有望推广至多模态生成、视频生成以及大模型对齐等更复杂场景,成为统一的生成优化范式[21]