Workflow
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
微软微软(US:MSFT) 机器之心·2025-09-01 10:49

大模型后训练强化学习技术演进 - GRPO已成为大模型通用的强化学习算法,能够应用于广泛的后训练任务,各大研究团队近期发布的重磅成果如DAPO、GSPO、GFPO均是对GRPO范式的改进 [4][5][38] 后训练与强化学习基础 - 大语言模型开发包含预训练和后训练两个关键阶段,预训练使模型掌握通用语言能力,后训练则强化模型在特定领域的知识和应用能力,增强模型适应性和灵活性 [11][12] - 强化学习是后训练中不可或缺的核心部分,其核心机制是通过反馈增加好结果出现概率并降低坏结果出现概率 [13][14] - OpenAI在GPT训练中采用RLHF方法,通过人类反馈训练agent生成更有用的输出,但直接使用反馈会导致激励不充分和方差过大问题 [17][19] PPO机制及其局限性 - PPO通过引入Critic价值函数将绝对Reward反馈转变为相对评估的Advantage机制,显著降低训练方差 [21][22][23] - PPO采用Clip策略限制新策略相对于旧策略的动作概率变化幅度,避免模型单次更新幅度过大,同时加入Reference Model和KL散度作为双保险保障更新稳定性 [24][25][26] - PPO需同时训练策略模型和Critic模型,Critic模型大小与策略模型相同,带来额外内存和计算负担,训练成本高且难以扩展 [29] GRPO创新与优势 - GRPO通过去掉Critic模型解决PPO高成本问题,采用策略模型多次输出采样的平均Reward作为baseline计算Advantage,大幅降低内存需求和计算复杂度 [30][31][34][35] - 相比PPO需要基础模型3倍内存,GRPO仅需0.5倍内存,训练速度快3-5倍,采用单策略网络架构更简单直观 [37] - 但GRPO存在严重稳定性问题,容易导致训练崩溃,需要足够多的Batch数据来降低策略梯度方差,对中小规模训练不友好 [39] DAPO优化方案 - DAPO针对GRPO实践问题提出四项优化:Clip-Higher机制通过解耦剪辑范围提升训练早期熵值;动态采样过滤无效梯度样本;Token级策略梯度损失保证长序列所有token公平贡献;超长奖励调整避免过长响应 [42][43][44] - 使用DAPO算法让Qwen2.5-32B模型在AIME 2024基准获得50分,优于同等规模DeepSeek模型且训练步数少50% [41] GSPO范式突破 - GSPO将重要性采样从token级提升至序列级,基于整个序列似然度计算重要性比值,显著降低长序列方差积累问题,提高训练稳定性 [48][53][54] - 序列级重要性采样进行长度归一化,避免不同回答长度带来的不稳定,且裁剪时作用于整个序列而非部分token,更符合奖励信号整体性 [56][57][58] - 该方法很可能成为未来后训练强化学习新标准,特别适合专家混合模型场景 [59] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励难以联合优化多个属性问题,可同时优化简洁性、准确度等属性 [62][63] - 通过为每个问题采样更大候选响应组并显式过滤不符合目标属性的响应,无需复杂奖励工程即可实现多属性优化 [64][67] - GFPO在Advantage估计层面进行干预,可与任何GRPO类似方法兼容 [68] GRPO其他缺陷 - GRPO将多奖励信号合并为单一标量信号,模型无法区分奖励具体来源行为 [73][75] - 在多轮推理任务中会出现指数级分支问题,导致训练非常困难 [79]