近端策略优化(PPO)

搜索文档
大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO
机器之心· 2025-08-13 08:52
核心观点 - 几何平均策略优化(GMPO)通过优化几何平均奖励解决了组相对策略优化(GRPO)在训练过程中的不稳定性问题,策略更新更稳定且探索能力更强 [2][11][22] - GMPO在语言任务和多模态推理任务中表现优于GRPO,Pass@1准确率提升1.4% [26][27] - GMPO通过token级裁切和更宽的裁切范围设计,平衡了训练稳定性与探索性 [17][18][20] GRPO面临的挑战 - GRPO优化算术平均奖励,对异常值敏感,易产生极端重要性采样比率导致策略更新不稳定 [9] - GRPO的剪切操作未完全解决稳定性问题,且过度限制模型更新幅度影响泛化能力 [9] GMPO原理与优势 - GMPO优化几何平均奖励,抑制极端值影响,训练目标公式见原文 [11] - GMPO梯度受几何平均加权,相比GRPO更鲁棒 [14] - GMPO优势包括:更稳定策略更新、更高奖励、减少过拟合风险、更高熵值支持持续探索 [22][23] 关键设计 - token级裁切比序列级裁切更稳定,避免丢失有价值梯度信号 [17] - 裁切范围设为(e−0.4,e0.4),显著大于GRPO和DAPO以鼓励探索 [20] 实验验证 - 语言任务:在AIME24、AMC等5个数学推理基准测试中表现优异 [25] - 多模态任务:Geometry3K基准上Pass@1准确率54.7%,较GRPO提升1.4% [26][27]