Workflow
GRPO卫兵
icon
搜索文档
GRPO训练不再「自嗨」!快手可灵 x 中山大学推出「GRPO卫兵」,显著缓解视觉生成过优化
机器之心· 2025-11-13 12:12
文章核心观点 - 中山大学等机构联合提出GRPO-Guard解决方案,旨在解决GRPO在流模型训练中出现的过度优化问题[3] - GRPO-Guard通过比率归一化和跨步梯度平衡两项关键技术,恢复裁剪机制有效性并均衡梯度贡献[19][21] - 该方法在多种GRPO变体、扩散骨干模型和代理任务中均能显著缓解过度优化,保持甚至提升生成质量[26][35] 技术问题分析 - GRPO在流模型训练中存在重要性比值分布偏移问题,导致均值长期低于1且方差差异显著[10][12] - 分布偏移使预先设定的clip机制失效,无法有效约束过度自信的正样本梯度[8][14] - 不同去噪步骤的梯度贡献差异显著,高噪声步骤贡献小,低噪声步骤贡献大,导致训练偏向单一噪声条件[15][16] - 上述问题共同导致模型陷入过度优化状态,代理奖励上升但实际图像质量和对齐度下降[2][23] 解决方案 - 比率归一化对每个去噪步骤的重要性比值分布进行标准化,使其均值接近1且方差一致[19] - 跨步梯度平衡基于RatioNorm均衡各去噪步骤梯度,使策略在整个噪声时间表上均匀探索[21] - 改进后的策略损失函数能防止单步过拟合,提升训练稳定性与生成多样性[21] 实验结果 - 在SD3.5-M模型上,Flow-GRPO结合GRPO-Guard在1860步时GenEval得分提升0.01至0.95,PickScore提升0.4至20.9[27] - 在1020步时文本渲染得分提升0.04至0.68,Gold Score平均提升0.04至1.20[27] - 在Flux 1-dev模型上,DanceGRPO结合GRPO-Guard在1260步时PickScore提升0.5至21.7,Gold Score平均提升0.14至1.02[27] - 可视化结果显示GRPO-Guard能有效保持训练后期图像质量,缓解baseline方法出现的文本响应退化和人体比例不一致问题[28][33]