科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生

大语言模型后训练强化学习技术演进 - 大语言模型后训练过程通过强化学习优化模型输出内容符合任务偏好预训练使模型掌握通用语言能力但后训练强化特定领域知识和应用能力增强模型适应性和灵活性[5] - 强化学习核心是反馈机制目标是增加好结果出现概率降低坏结果出现概率在大模型训练中采用人类反馈方式[5][8][9] PPO强化学习算法 - PPO采用近端策略优化机制加入Critic价值函数和CLIP操作保证策略更新不过度同时高效提升性能成为强化学习领域标准方法之一[11] - PPO损失函数包含Critic价值函数评估相对进步程度显著降低训练过程方差同时采用Clip策略限制新策略相对于旧策略动作概率变化幅度避免模型更新幅度过大[11][13] GRPO算法创新 - GRPO去除PPO中Critic价值函数采用策略模型多次输出采样奖励平均值作为基准线超过平均值视为正向Advantage 低于为负向Advantage 大幅降低内存需求和计算成本[14][16] - GRPO内存需求为基础模型0.5倍训练速度比PPO快3-5倍采用单策略网络架构优势估计采用统计型群体投票方式[18] - GRPO存在严重稳定性问题容易导致训练崩溃需要大量数据降低策略梯度方差中小规模训练中稳定性缺陷致命[18][19] DAPO算法改进 - DAPO在GRPO框架内进行工程改进让Qwen2.5-32B模型在AIME 2024基准获得50分优于同等规模DeepSeek模型训练步数少50%[20] - 采用Clip-Higher机制将剪辑上下限解耦为ε_low和ε_high 增加ε_high值为低概率token留出更多空间提升训练早期熵[21] - 实施动态采样过滤奖励为1和0的提示语保留有效梯度样本提高训练效率采用Token级策略梯度损失保证长序列所有token公平贡献batch loss[21][22] GSPO范式突破 - GSPO将重要性采样从token级提升到序列级基于整个序列似然度计算重要性比值显著降低长序列中积累的高方差提高训练稳定性[25][29][31] - 序列级重要性采样进行长度归一化避免importance ratio对长度敏感造成不稳定同一序列所有token共用同一重要性权重裁剪时作用于整个回答而非部分token[31] - GSPO损失函数采用序列级重要性权重和clip操作成为Qwen3强化学习核心实践框架可能成为未来后训练强化学习新标准[25][31] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励信号问题可同时优化多个响应属性如简洁性和准确度避免模型响应长度大幅增加[33] - 采用显式过滤机制为每个问题采样更大候选响应组过滤不符合目标属性响应在所选组内使用标准奖励计算相对优势无需复杂奖励工程[33][34] - GFPO主要干预Advantage估计层面可与任何GRPO类似方法兼容包括DAPO或带有Dual-Clip PPO损失的GRPO[35] GRPO其他缺陷 - GRPO存在奖励歧义性问题多个奖励信号被合并为单一标量信号模型无法知道具体因什么行为被奖励即使调整不同奖励组件权重仍只能看到总奖励[39][41] - 在推理任务中 GRPO丢弃所有中间文本反馈仅使用数值化奖励信号文字反馈对模型有帮助但完全无法利用[43] - 多轮推理任务中每轮反馈重新输入到基础模型prompt 导致指数级分支使GRPO在多轮任务训练变得非常困难[44]