拒绝Reward Hacking!港科联合快手可灵提出高效强化学习后训练扩散模型新范式
机器之心·2026-01-25 10:35

文章核心观点 - 强化学习微调扩散模型时面临“两难困境”:追求高奖励会导致图像质量崩坏,而引入KL正则化又会阻碍模型探索和收敛 [2] - 研究团队提出全新框架GARDO,通过门控自适应正则化和多样性感知优化,成功在防止奖励黑客攻击的同时,实现了高效的样本探索和多样性生成 [2] - GARDO框架基于三个核心洞察:正则化不需要“雨露均沾”、静态参考模型会限制优化上限、以及需要鼓励多样性生成以防止模式坍塌 [14][17][18] - 实验表明,GARDO在多个基底模型和任务上实现了全方位的性能提升,包括拒绝黑客攻击、提升样本效率和泛化性,甚至激发了模型的涌现能力 [20][22][24] 背景与动机:RL后训练中的陷阱 - 在视觉任务中,定义一个完美的奖励函数极其困难,通常使用代理奖励,这导致了典型的奖励黑客攻击问题 [5] - 当模型过度优化代理奖励时,会找到奖励模型的漏洞,导致代理分数极高但生成的图像质量崩坏,充满噪点、伪影并失去真实感 [5] - 传统的KL正则化方法会带来两个主要问题:样本效率低,以及阻碍模型探索参考模型未发现的高奖励区域 [9][10] GARDO框架的核心方法 - 门控KL机制:仅对高不确定性样本施加惩罚,实验发现仅惩罚约10%的高不确定性样本即可有效防止奖励黑客攻击,让其余90%的样本自由探索 [14][21] - 自适应正则化目标:定期更新参考模型,将其重置为当前策略,这为模型设立了动态更新的“锚点”,既保证训练稳定性,又允许模型持续进化 [17][21] - 多样性感知优势重塑:利用DINOv3提取特征计算样本在特征空间中的稀疏度作为“多样性分数”,并将此分数以乘法形式作用于正向优势函数,以鼓励多样性生成并防止模式坍塌 [18] 实验结果:定量评估 - 在OCR任务上,GARDO在保持高识别率的同时,图像质量指标没有下降甚至有所提升 [22] - 学习曲线显示,GARDO能够以更少的步数达到更高的奖励水平,样本效率更高 [22] - 在未见过的测试指标上,GARDO表现出极强的鲁棒性 [22] - 具体数据:在SD3.5-M基底模型上进行OCR任务训练600步后,GARDO方法在Aesthetic Score上达到0.65,OCR识别率达到0.92,PickScore达到5.07,ImgRwd达到22.41,ClipScore达到0.92 [23] - 在GenEval任务训练2000步后,GARDO在Aesthetic Score上达到0.95,GenEval Score达到0.68,PickScore达到5.09,ImgRwd达到22.34,ClipScore达到0.95,HPSv3达到9.27,Diversity达到24.95 [23] 涌现能力 - 在极具挑战性的“数数任务”中,基底模型和传统RL方法很难生成超过9个物体 [25] - GARDO成功学会了生成10个甚至11个物体 [25] - 具体数据:在Counting 10任务上,GARDO的成功率达到0.38,显著高于GRPO方法的0.28;在Counting 11任务上,GARDO成功率为0.18,也高于GRPO的0.15 [26] 总结与意义 - 这项工作证明,在视觉生成的强化学习中,精准的控制比强力的约束更重要 [27] - GARDO为希望利用RL进一步释放扩散模型潜力的研究者和开发者提供了一个极具价值的通用框架 [27] - 框架的核心可总结为:拒绝盲目正则化、拒绝静态锚点、拒绝模式坍塌 [29]

拒绝Reward Hacking!港科联合快手可灵提出高效强化学习后训练扩散模型新范式 - Reportify