Workflow
HJB方程
icon
搜索文档
可微奖励就该直接微调!用HJB方程颠覆流匹配对齐|NeurIPS'25
量子位· 2026-03-09 14:05
文章核心观点 - 提出了一种名为VGG-Flow的新方法,用于微调扩散模型,该方法绕过了传统的强化学习框架,将奖励微调重新表述为一个连续时间最优控制问题,通过求解Hamilton–Jacobi–Bellman方程,直接将可微奖励转化为价值梯度,从而为流匹配模型的对齐提供了一条更稳定、更鲁棒的路径 [3][26] 技术背景与现有方法局限 - 当前大规模生成模型对齐的主流做法依赖强化学习,在奖励函数上微调模型以贴近人类偏好 [3] - 主流方法主要分为两类:一是将模型视为黑盒,通过将ODE采样过程转为随机SDE来适配强化学习框架,使用高方差的策略梯度方法;二是通过近似手段优化某些取样步的奖励值,但缺乏严格理论支撑且易导致过拟合与模式坍塌 [3] VGG-Flow核心方法论 - 核心思路是将微调目标定义为最大化“终态奖励”减去“累计代价”,其中累计代价约束微调模型与预训练模型在取样路径上的偏差 [4][7][8] - 通过最优控制理论,将问题转化为求解价值函数,其演化满足Hamilton–Jacobi–Bellman方程,并推导出最优微调方向等于价值函数的梯度 [9][10][11] - 该方法无需采样优势函数、计算对数概率比或进行策略比值裁剪,只需估计价值梯度即可直接、可微地更新模型 [12] 参数化与优化设计 - 引入了Forward-looking参数化方法,利用一步Euler前推预估终点,并用其奖励梯度对价值梯度进行参数化,使模型在训练初期具备合理引导方向 [14][15] - 即使不学习参数化中的残差项,仅依赖奖励梯度的引导也能实现明显的对齐效果,这显著降低了计算成本 [16] - 优化目标包括梯度匹配损失、价值一致性损失和终端边界损失,当不学习价值梯度中的残差项时,仅需优化梯度匹配损失 [17][19][20] 实验效果与性能 - 在Stable Diffusion 3上的实验表明,仅需400次更新,VGG-Flow即可实现奖励信号的稳定提升 [21] - 在Aesthetic和PickScore指标上,该方法展现出较高的收敛效率与良好的多样性保持能力 [21] - 相比ReFL、DRaFT等方法,VGG-Flow表现更为稳健,更不易遗忘预训练模型中的先验,生成结果更加自然,且无需将ODE转换为SDE [21] - 实验结果显示,该方法在奖励值、DreamSim多样性与CLIP多样性等指标上表现优异,同时保持了较低的FID [23][25] 总结与影响 - VGG-Flow通过学习空间中每一点的价值函数梯度,并使速度场向其对齐,实现了结构一致的可微奖励微调 [26] - 由于优化目标是匹配局部梯度而非直接最大化终态奖励,该方法在实践中表现出更好的稳定性与鲁棒性 [26] - 该方法为基于可微奖励函数的高效微调提供了一种新的思路,相关研究已被NeurIPS 2025接收 [3][26]