HJB方程 - 财报，业绩电话会，研报，新闻

HJB方程

搜索文档

量子位· 2026-03-09 14:05

文章核心观点 - 提出了一种名为VGG-Flow的新方法，用于微调扩散模型，该方法绕过了传统的强化学习框架，将奖励微调重新表述为一个连续时间最优控制问题，通过求解Hamilton–Jacobi–Bellman方程，直接将可微奖励转化为价值梯度，从而为流匹配模型的对齐提供了一条更稳定、更鲁棒的路径 [3][26] 技术背景与现有方法局限 - 当前大规模生成模型对齐的主流做法依赖强化学习，在奖励函数上微调模型以贴近人类偏好 [3] - 主流方法主要分为两类：一是将模型视为黑盒，通过将ODE采样过程转为随机SDE来适配强化学习框架，使用高方差的策略梯度方法；二是通过近似手段优化某些取样步的奖励值，但缺乏严格理论支撑且易导致过拟合与模式坍塌 [3] VGG-Flow核心方法论 - 核心思路是将微调目标定义为最大化“终态奖励”减去“累计代价”，其中累计代价约束微调模型与预训练模型在取样路径上的偏差 [4][7][8] - 通过最优控制理论，将问题转化为求解价值函数，其演化满足Hamilton–Jacobi–Bellman方程，并推导出最优微调方向等于价值函数的梯度 [9][10][11] - 该方法无需采样优势函数、计算对数概率比或进行策略比值裁剪，只需估计价值梯度即可直接、可微地更新模型 [12] 参数化与优化设计 - 引入了Forward-looking参数化方法，利用一步Euler前推预估终点，并用其奖励梯度对价值梯度进行参数化，使模型在训练初期具备合理引导方向 [14][15] - 即使不学习参数化中的残差项，仅依赖奖励梯度的引导也能实现明显的对齐效果，这显著降低了计算成本 [16] - 优化目标包括梯度匹配损失、价值一致性损失和终端边界损失，当不学习价值梯度中的残差项时，仅需优化梯度匹配损失 [17][19][20] 实验效果与性能 - 在Stable Diffusion 3上的实验表明，仅需400次更新，VGG-Flow即可实现奖励信号的稳定提升 [21] - 在Aesthetic和PickScore指标上，该方法展现出较高的收敛效率与良好的多样性保持能力 [21] - 相比ReFL、DRaFT等方法，VGG-Flow表现更为稳健，更不易遗忘预训练模型中的先验，生成结果更加自然，且无需将ODE转换为SDE [21] - 实验结果显示，该方法在奖励值、DreamSim多样性与CLIP多样性等指标上表现优异，同时保持了较低的FID [23][25] 总结与影响 - VGG-Flow通过学习空间中每一点的价值函数梯度，并使速度场向其对齐，实现了结构一致的可微奖励微调 [26] - 由于优化目标是匹配局部梯度而非直接最大化终态奖励，该方法在实践中表现出更好的稳定性与鲁棒性 [26] - 该方法为基于可微奖励函数的高效微调提供了一种新的思路，相关研究已被NeurIPS 2025接收 [3][26]

Artificial Intelligence

Artificial Intelligence

Stable Diffusion 3