扩散思维链提示词技术
搜索文档
ICLR2026 Oral | 北大彭一杰团队提出高效优化新范式,递归似然比梯度优化器赋能扩散模型后训练
机器之心· 2026-03-09 11:58
文章核心观点 - 北京大学团队提出名为递归似然比(RLR)优化器的扩散模型后训练新方案,该方案通过创新的“半阶梯度估计范式”,在保证梯度估计无偏性的同时显著降低方差,从而在有限的计算资源下,高效解决扩散模型适配下游应用时面临的内存、效率与性能权衡问题 [2][10] 现有方法瓶颈 - 扩散模型后训练旨在将预训练模型与特定场景质量要求或人类偏好对齐,当前主流方法存在显著缺陷 [7] - 基于截断反向传播(BP)的方法为降低内存开销会终止部分梯度计算,导致梯度估计存在结构性偏差,严重时引发模型崩溃,生成内容退化为纯噪声 [7] - 基于强化学习(RL)的方法虽能降低内存需求,但梯度估计方差极高,导致样本效率低下,训练收敛缓慢 [7] - 例如,使用全BP训练Stable Diffusion 1.4仅需50个时间步就需约1TB GPU内存,完全不具实用价值,而截断BP和RL方法难以兼顾训练稳定性与生成质量 [7] RLR优化器技术原理 - RLR优化器设计了“半阶梯度估计范式”,通过利用扩散模型固有的噪声特性并重构递归扩散链中的计算图,实现无偏且低方差的梯度估计 [10] - 优化器核心包含一阶估计模块和零阶估计模块:一阶模块在第一个时间步直接对奖励模型进行反向传播,避免黑箱处理带来的精度损失;零阶模块对剩余时间步采用参数扰动策略,确保无偏性且无需缓存中间潜变量,大幅降低计算开销 [11][12] - 算法的核心可控参数是局部子链长度h,其取值决定了内存开销与梯度方差的权衡关系 [14] - 研究团队将h的求解转化为带内存预算约束的方差最小化优化问题,为参数选择提供了明确的数学依据 [14] - 在30~40GB主流GPU内存预算(8张V100)下,h=2被确定为工程黄金取值,可将整体方差降至饱和区间;将h增至3或4会使单步训练时间从1.61分钟飙升至5.65分钟、9.23分钟,但奖励分数仅微幅提升,性价比较低 [15] - 团队通过严格理论分析证明了RLR估计器的无偏性,并给出了方差边界和收敛速率保证 [16] 实验验证与性能表现 - 在文本到图像任务中,基于Stable Diffusion 1.4和2.1的实验显示,RLR在PickScore、HPSv2、AES等多个人类偏好奖励模型上均取得最高奖励分数 [18] - 在HPD v2数据集上,RLR将Stable Diffusion 1.4的ImageReward分数从32.90提升至76.55,较DDPO方法提升约47%,较AlignProp方法提升约14% [18] - 对于Stable Diffusion 2.1,RLR将ImageReward分数从基线的36.03提升至83.07 [19] - 在文本到视频任务的VBench基准测试中,RLR在主体一致性、运动流畅度、动态程度等6个核心指标上表现突出,加权平均分数达到84.63,超越了VideoCrafter、Pika、Gen-2等模型 [19] - 在动态程度指标上,RLR达到70.69,显著领先于其他方法的最高值66.94 [19] - 团队还为RLR优化器量身设计了“扩散思维链”提示词技术,通过将提示词分解为多尺度,让半阶子链精准针对生成缺陷进行梯度更新,进一步挖掘了性能潜力,在手部生成等细粒度任务中实现显著提升 [20]