GRPO
搜索文档
揭秘!RLVR/GRPO中那些长期被忽略的关键缺陷
机器之心· 2026-01-30 16:49
RLVR中组内优势估计的系统性偏差 - 当前大模型在数学推理、代码生成等任务上的突破,其关键技术之一是RLVR,即让模型通过可验证的规则(如答案是否正确)进行自我试错和改进[2] - 在RLVR的实际训练中,广泛采用组内相对优势估计方法,即对同一问题生成一组回答,在组内进行相对比较,以此作为策略梯度更新的核心信号[2] - 然而,最新研究发现,这种组内优势估计存在明确且系统性的方向性偏差:困难题的优势被持续低估,简单题的优势则被不断高估[3] - 这种偏差是组内优势估计设计在统计结构层面固有的内在缺陷,无法通过简单调整超参数来缓解[6] 偏差的理论定义与量化分析 - 组内相对优势估计的数学定义为:对于一个提示,采样G个响应并获得奖励,以组内平均奖励为基线,计算每个响应的相对优势[8][9][10] - 在0-1奖励假设下,策略在给定提示上的期望奖励定义为模型在该提示上回答正确的概率[12] - 题目难度根据期望奖励定义:小于0.5为难题,大于0.5为简单题[17] - 分析聚焦于非退化梯度事件,即排除了所有响应全错或全对(导致梯度消失)的情况,关注实际驱动学习的有效更新区间[18][19][20] - 定理1表明,在非退化事件条件下,组相对优势估计对不同难度的提示表现出系统性偏差[23] - 具体而言:对于困难提示,其期望优势估计系统性低于真实优势(被低估);对于简单提示,其期望优势估计系统性高于真实优势(被高估);仅当期望奖励为0.5时,估计才是无偏的[30] - 在常用组大小G=8时,对于困难或简单提示,优势被错误估计的概率超过0.63;当难度加剧时,这一概率上界可提升至0.78甚至100%[32] 偏差的影响与实例 - 偏差导致训练过程表面“稳定收敛”,但模型实际上逐渐回避困难问题、偏好简单样本,破坏了探索与利用的平衡,损害泛化能力和长期训练稳定性[5] - 举例说明:对于一个模型做对概率仅1%的难题,若采样8次且至少有一个正确回答,组内基线会被拉高至至少0.125,导致计算出的优势估计(≤0.875)与真实优势(0.99)产生巨大偏差,即优势被显著低估[26] - 在MATH数据集上的实验显示,对于同一道困难题目,当采样数量从8次提升至128次时,对正确回答的优势估计从2.65增大至3.64,更接近真实值,说明更大的采样组能在一定程度上缓解偏差[28] - 偏差大小与提示难度和采样组大小G相关:提示难度偏离0.5越远(越困难或越简单),偏差越大;在相同难度下,G越小,偏差越大[24][25] 偏差的普适性与解决方案 - 尽管主要分析基于0-1二值奖励,但该偏差现象在更广泛的连续有界奖励模型中同样普遍存在,并非Bernoulli奖励假设的偶然产物[36][37][38] - 系统性偏差导致不同难度提示收到不平衡的梯度信号:困难提示学习进展缓慢,简单提示被过度强化,抑制有效探索[40] - 解决方案是引入自适应调整机制:对于困难提示,应适当放大其估计优势以鼓励探索;对于简单提示,则应抑制其优势以防止过度利用[40] - 论文提出HA-DW算法,通过引入短期历史平均奖励作为动态锚点来判定提示的相对难度,并对优势估计进行自适应重加权[40] - 实验表明,引入优势校正机制后,模型在困难提示上的性能相比原始GRPO提升了3.4%[42] - 这项研究标志着LLM强化学习领域开始从追求工程效果转向关注估计准确性与可解释性,未来偏差分析和估计器正确性很可能成为RLVR的标配[42]
挑战GRPO,英伟达提出GDPO,专攻多奖励优化
具身智能之心· 2026-01-13 08:54
文章核心观点 - 英伟达的研究指出,在多奖励强化学习优化场景中,当前广泛采用的GRPO算法存在根本性缺陷,它会将不同的奖励信号混合归一化,导致训练信号被削弱和信息损失 [2][4] - 为解决此问题,英伟达提出了一种新的策略优化方法GDPO,该方法通过对各个奖励信号分别进行归一化,保留了奖励间的相对差异,从而实现了更准确的多奖励优化和更稳定的训练过程 [4] - 在工具调用、数学推理和代码推理等多项任务上的实验结果表明,GDPO在所有设置中均稳定地优于GRPO,能够实现更强的目标偏好对齐和更优的跨目标权衡 [7][37] GRPO算法在多奖励优化中的问题 - GRPO通常用于优化单一目标奖励,但在多奖励优化中,常见的做法是将所有奖励分量相加后直接应用GRPO,这会导致问题 [10] - GRPO会对聚合后的总奖励进行群组级归一化,这本质上压缩了奖励信号,导致优势估计中的信息损失 [10] - 具体示例显示,在涉及两个二值奖励的场景中,尽管存在六种不同的奖励组合,但GRPO归一化后只产生两个唯一的优势组,例如(0,1)、(0,2)和(1,2)会产生相同的归一化优势值,这削弱了学习信号 [11][12] - 这种局限性可能引入训练不稳定的风险,在数学推理任务中,使用GRPO训练时,正确率奖励分数在约400个训练步后开始下降,出现了部分训练坍塌 [12] - 移除标准差归一化项的GRPO变体仅能略微增加不同优势组的数量,但并未带来更好的收敛性或更优的下游评估表现,在工具调用任务中甚至导致格式奖励完全失败 [13][26] GDPO算法的核心改进 - GDPO的核心创新在于“解耦归一化”,即在聚合之前对每个奖励分别进行群组级归一化,计算各自的归一化优势,然后再求和并进行批次级优势归一化,以保持数值稳定 [17] - 这种方法避免了不同奖励信号被混合“抹平”,更真实地保留了它们的相对差异 [4] - 理论分析表明,GDPO能产生显著更多的不同优势组,随着rollout数量或奖励数量的增加,其优势粒度也逐步增大,实现了更精确的优势估计 [18] - GDPO能够持续产生更稳定的训练曲线和更好的收敛性,例如在工具调用任务中,GDPO在格式奖励和正确率奖励上都实现了更好的收敛 [19] - 论文还探讨了当不同目标重要性不相等时,如何通过调整奖励权重或修改奖励函数来优先考虑更重要的目标 [19] 工具调用任务实验结果 - 在工具调用任务上,GDPO在所有运行中都能在格式奖励和正确率奖励上收敛到比GRPO更高的值 [23] - 在BFCL-v3评估中,对于Qwen2.5-Instruct-1.5B模型,GDPO在Live任务上的整体准确率从GRPO的50.63%提升至55.36%,在Non-Live任务上从37.87%提升至40.58%,平均准确率从30.18%提升至32.81%,正确格式比例从76.33%提升至80.66% [25] - 对于Qwen2.5-Instruct-3B模型,GDPO在Live任务上的整体准确率从GRPO的69.23%提升至71.22%,平均准确率从39.20%提升至40.87% [25] - 移除标准差归一化项的GRPO变体在格式奖励上完全失败,在BFCL-v3上的正确格式比例为0% [26] 数学推理任务实验结果 - 在数学推理任务中,GDPO比GRPO更有效地恢复了正确率奖励,并且避免了GRPO在约400步后出现的训练不稳定性 [29] - 对于DeepSeek-R1-1.5B模型,GDPO在所有基准测试上都优于GRPO,在MATH、AIME和Olympiad基准上的准确率分别提升了2.6%、6.7%和2.3% [30] - 对于DeepSeek-R1-7B模型,GDPO在更具挑战性的AIME基准上将准确率从GRPO的50.2%提升至53.1%,同时将超长率从2.1%大幅降低至0.2% [30][34] - 对于Qwen3-4B-Instruct模型,GDPO在AIME基准上将准确率从GRPO的54.6%提升至56.9%,同时将超长率从2.5%大幅降低至0.1% [30][34] 代码推理任务实验结果 - 在代码推理任务的双奖励设置下,GDPO在所有任务上都提升了通过率,同时保持相似的超长比例 [35] - 例如,在Codecontests任务上,GDPO将通过率从GRPO的63.2%提升至65.8%,超长比例仅从14.2%微增至14.3% [35] - 在三奖励设置下,GDPO在所有目标上都实现了更有利的平衡,在保持与GRPO相似通过率的同时,显著降低了超长比例和bug比例 [36] - 具体在Taco任务的三奖励设置中,GDPO将超长比例从GRPO的14.7%降低至10.6%,同时将bug比例从30.0%降低至28.0% [36]
挑战GRPO,英伟达提出GDPO,专攻多奖励优化
机器之心· 2026-01-11 12:00
文章核心观点 - 英伟达的研究团队提出了一种名为GDPO(组奖励解耦归一化策略优化)的新强化学习算法,旨在解决当前广泛采用的GRPO(组相对策略优化)算法在多奖励优化场景中的固有缺陷 [1][2] - 核心论点是,在多奖励优化中,GRPO会将不同奖励组合归一化为相同的优势值,从而削弱训练信号并可能导致训练不稳定,而GDPO通过对各个奖励信号分别进行归一化,保留了奖励间的相对差异,实现了更精确的优势估计和更稳定的训练 [2][9][11] 技术背景与问题 - GRPO及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法,是促使DeepSeek-R1成功的基础技术之一 [3] - 随着语言模型能力提升,行业趋势是同时优化多个奖励(如准确率、响应长度、格式质量),以更好地与人类偏好保持一致 [1][9] - GRPO在多奖励优化中的根本性局限在于其群组级奖励归一化会过度压缩丰富的奖励信号,导致信息损失 [9][10][11] - 例如,在一个简单的双奖励二值场景中,尽管存在六种不同的奖励组合,GRPO归一化后只产生两个唯一的优势组,使得(0,1)和(0,2)产生相同的优势值,而直觉上(0,2)应产生更强的学习信号 [10][11] - 这种局限性可能引入训练不稳定的风险,在数学推理任务中,使用GRPO训练时,正确率奖励分数在约400个训练步后开始下降,表明出现了部分训练坍塌 [11] GDPO解决方案 - GDPO的核心改进在于,与GRPO直接对聚合奖励和进行群组级归一化不同,它通过在聚合之前对每个奖励分别进行群组级归一化来解耦这一过程 [16] - 具体而言,GDPO为每个奖励单独计算归一化优势,然后将所有目标的归一化优势相加,最后对多奖励优势之和应用批次级优势归一化,以确保数值范围稳定 [16] - 这种方法避免了不同奖励被混合“抹平”,更真实地保留了它们的相对差异 [2][17] - 理论验证显示,在两个奖励、rollout数量变化的场景中,GDPO始终产生显著更多的不同优势组,且随着rollout数量增加,差距不断扩大 [17] - 当固定rollout数量为4并增加奖励数量时,GDPO也随着目标数量增长表现出逐步增大的优势粒度 [17] 实验结果:工具调用任务 - 在工具调用任务上,GDPO在所有运行中都能在格式奖励和正确率奖励上收敛到更高的值 [22] - 对于正确率奖励,GDPO在早期阶段表现出更快的改善,并在后期达到比GRPO基线更高的奖励分数 [22] - 在BFCL-v3评估中,对于Qwen2.5-Instruct-1.5B模型,GDPO在Live任务上整体准确率从GRPO的50.63%提升至55.36%,在Non-Live任务上从37.87%提升至40.58%,整体平均准确率从30.18%提升至32.81%,正确格式比例从76.33%提升至80.66% [24][25] - 对于Qwen2.5-Instruct-3B模型,GDPO在Live任务上整体准确率从GRPO的69.23%提升至71.22%,整体平均准确率从39.20%提升至40.87% [25] - 移除标准差归一化项的“无标准差GRPO”变体在格式奖励上完全失败,在BFCL-v3上的正确格式比例为0%,表明简单地增加优势多样性可能会给训练引入不稳定性 [25][26] 实验结果:数学推理任务 - 在数学推理任务中,GDPO比GRPO更有效地恢复了正确率奖励,并消除了GRPO在约400步后观察到的训练坍塌问题 [11][28] - 对于DeepSeek-R1-1.5B模型,GDPO在所有基准测试上都优于GRPO:在MATH准确率从83.6%提升至86.2%,在AIME准确率从23.1%提升至29.4%,在Olympiad准确率从44.3%提升至46.6% [29][33] - 同时,GDPO显著降低了响应超长比例:在AIME任务上,DeepSeek-R1-1.5B的超长比例从GRPO的10.8%降至6.5%;DeepSeek-R1-7B从2.1%降至0.2%;Qwen3-4B-Instruct从2.5%降至0.1% [29][33] - 对于DeepSeek-R1-7B模型,GDPO在更具挑战性的AIME基准测试上将准确率从50.2%提高了近3%至53.1% [29] 实验结果:代码推理任务 - 在代码推理任务的双奖励设置下,GDPO在所有任务上都提升了通过率,同时保持相似的超长比例 [34] - 例如,在Codecontests上,通过率从GRPO的63.2%提升至65.8%,超长比例仅从14.2%微增至14.3%;在Taco上,通过率从45.1%提升至48.4%,同时超长比例从11.8%降低至10.8% [34][35] - 在三奖励设置下,GDPO在所有目标上都实现了更有利的平衡,在保持与GRPO相似通过率的同时,显著降低了超长比例和bug比例 [35] - 例如,对于DeepSeek-R1-7B模型,在Codeforces任务的三奖励设置下,GDPO将超长比例从GRPO的16.9%降至13.6%,bug比例从2.5%降至1.8% [35] - 总体结果表明GDPO在奖励信号数量增加时仍然有效,在双奖励和三奖励配置中都始终比GRPO实现更优的跨目标权衡 [36] 行业影响与意义 - 该研究指出了当前主流强化学习算法GRPO在应对多目标对齐这一行业重要趋势时的局限性 [1][9] - GDPO的提出为训练更符合多样化人类偏好、在多场景下表现更稳定的大型语言模型提供了新的技术路径 [2][18] - 实验证明GDPO在工具调用、数学推理和代码推理等多类任务上,在正确性指标和约束条件遵守方面都稳定地优于GRPO,展示了其有效性和良好泛化能力 [6] - 该技术有望被行业采纳,用于提升下一代语言模型的综合性能与对齐能力 [3][18]
NeurIPS25高分论文|以判别式监督学习强化推理LLM,解决难度偏差和熵崩塌难题
机器之心· 2025-10-26 15:00
核心观点 - 提出一种名为判别式约束优化(DisCO)的新框架,用于强化大型推理模型,该框架基于判别式学习原则,旨在增加正确答案得分并减少错误答案得分[3] - DisCO框架成功解决了群体相对策略优化(GRPO)及其变体存在的难度偏差和熵不稳定性问题[6][27] - 实验结果表明,DisCO在增强大型模型数学推理能力方面显著优于GRPO及其改进版本,在1.5B模型的六个基准任务中平均增益比GRPO高7%,比DAPO高6%[4] GRPO问题分析 - 发现GRPO在二元奖励设置下存在难度偏差问题,其优化目标中的加权项导致模型只重点学习"中等难度"问题,而忽视正确率较高或较低的问题[12] - 实验证实不适当的加权有害影响,移除加权后的变体"GRPO_RW"能在更多问题上实现100%正确率和更少问题上实现0%正确率[12] - 揭示了GRPO优化目标与判别式监督学习AUC最大化思路之间的联系[11] DisCO方法设计 - 采用判别式目标函数,其优化目标类似于AUC优化,直接增加正确答案得分并减少错误答案得分[16] - 引入基于分布鲁棒性优化(DRO)的目标函数来解决稀疏奖励导致的训练数据不平衡问题,该设计借鉴了局部AUC优化技术[17][18] - 采用约束优化方法稳定训练,通过非凸不等式约束优化策略将KL散度约束替换为平滑的方形铰链惩罚项,避免了裁剪操作引起的熵崩塌现象[19][20] 实验结果 - 在1.5B模型实验中,DisCO在六个数学基准数据集上始终显著优于其他基线方法,训练和推理长度均为8k的DisCO比GRPO平均提高7%[22] - 在7B模型实验中,DisCO大幅优于所有基线方法,比GRPO平均提高3.5%[22] - 训练动态分析显示DisCO方法最为稳定,训练奖励不断增加且生成熵保持相对稳定,而GRPO及其变体都出现了熵崩塌或熵过度增长问题[27][28] 技术优势 - 完全消除了GRPO存在的难度偏差问题[6] - 通过使用非裁剪评分函数和约束优化方法,解决了GRPO及其变体的熵不稳定性,获得了长期稳定的训练动态[6][27] - 允许结合先进的判别式学习技术来解决数据不平衡问题,特别是在训练过程中错误答案远多于正确答案的情况[4][17]
X上63万人围观的Traning-Free GRPO:把GRPO搬进上下文空间学习
机器之心· 2025-10-22 16:46
文章核心观点 - 腾讯优图提出了一种名为Training-Free GRPO的新方法,将强化学习中的GRPO算法完整迁移到上下文学习空间,实现了无需更新模型参数的强化学习效果 [4][6][28] - 该方法在保留GRPO多路径探索、组内优势等核心优点的同时,显著降低了超大模型进行强化学习的成本和工程难度,使中小团队也能应用 [3][4][21][24] - 在数学推理和网页搜索等场景的实验中,该方法仅用100个训练样本和8-18美元成本,就在671B模型上实现了性能提升,并展现出更好的泛化能力 [13][14][17][25] 技术方法创新 - 核心创新在于不更新模型参数,而是将GRPO的“学习过程”搬进上下文空间,通过生成多条解答路径、比较组内优劣、根据优势信号更新文本型LoRA来实现学习 [4][10][11] - 方法完全对齐参数空间RL训练流程:多轮迭代学习、并行生成多条解答、提取文本型组内优势、优化文本型LoRA [10][20][26] - 与Self-Refine等就地改写方法不同,该方法在独立数据集上进行多轮迭代训练,对测试集的Out-of-Domain数据也有显著提升 [25] 实验效果与成本优势 - 在数学推理任务中,仅使用100个训练样本和约8-18美元成本,就在671B的DeepSeek-V3.1-Terminus模型上提升性能:AIME24指标从68.6提升至72.6,AIME25从52.9提升至54.0 [13][15] - 结合代码解释器时,AIME25指标从67.9提升至73.3,提升5.4个百分点;同时工具调用次数减少,表明模型学会了更高效使用工具 [14][15] - 在网页搜索场景中,Pass@1指标从63.2%提升至67.8%,提升4.6个百分点 [17][18] - 成本相比传统RL训练大幅降低,32B量级模型训练一次RL可能花费上万美元,而该方法仅需8-18美元 [4][24] 行业应用价值 - 该方法使超大模型的RL优化变得廉价、灵活、可持续,为中小团队和个人开发者提供了用得起的强化学习方案 [3][4][28] - 只需一个统一模型和API即可泛化到不同场景,避免了维护多个专用模型的系统复杂度和成本 [25] - 技术已开源并将集成到Youtu-Agent框架中,帮助开发者提升各种自定义场景的效果 [6][26]
NeurIPS 25 | GRPO进阶版来了,GVPO重构大模型后训练范式
机器之心· 2025-10-14 10:06
文章核心观点 - 大模型后训练是AI进化的关键环节,核心目标是增强模型推理能力、对齐人类偏好并保持稳定高效 [1] - 作业帮与香港科技大学(广州)团队提出全新后训练方法GVPO,该方法通过避免重要性采样解决了GRPO的训练不稳定和超参数敏感问题 [2] - GVPO在理论上提供唯一最优解保证,在数学推理任务实验中表现全面超越GRPO和DrGRPO等现有方法 [2][21] - GVPO标志着后训练从经验驱动转向理论保证,可能引发下一代后训练的范式转变,具备更稳定、更灵活、更高效的特点 [25][26] GVPO设计动机与方法 - 研究团队受DPO启发,旨在GRPO场景下利用KL约束下奖励最大化的解析解,但面临公式中Z(x)计算不可行的实际困难 [5][6] - GVPO通过保证同一提示词下所有采样对应梯度权重之和为零,使Z(x)自然消掉,从而规避计算难题 [6] - GVPO的损失函数等价于均方误差损失,其物理意义是让隐式奖励去逼近真实奖励 [10][11] GVPO关键优势 - 拥有唯一最优解保证,研究团队从必要性和充分性证明当且仅当隐式奖励等于真实奖励时达到唯一最优解 [13] - 无须重要性采样,对训练时的采样分布几乎无限制,能适配任意满足条件的分布,支持无需重要性采样的离线策略训练 [14] - 能够充分利用人类专家数据、蒸馏数据和历史数据,避免重要性采样常见的训练不稳定问题,更契合大规模工业级应用 [14] GVPO分析视角 - 负对数似然视角下,GVPO损失函数可表示为带权重的负对数似然,涵盖传统策略梯度方法并允许整合历史数据和异构数据源 [17] - 均方误差视角下,优化目标等价于最小化隐式奖励与实际奖励中心距离的偏差,保证收敛到唯一全局最优解 [18] - 强化学习视角下,损失函数包含组相对奖励项、方差正则项和协方差正则项,共同保障训练稳定性并避免熵塌缩 [19][20] 实验结果 - 在数学推理任务系统对比中,基座模型Qwen25-Math-7B使用GVPO后在AIME2024、AMC、MATH500、Minerva、OlympiadBench五个基准测试全面领先 [21] - GVPO在AIME2024得分从基座的1468提升至2072,在AMC从3855提升至6265,在MATH500从6400提升至8380,在Minerva从2720提升至4595,在OlympiadBench从3066提升至4696 [21] - 消融实验显示GVPO对超参数β不敏感几乎无需调参,在采样数量增加时扩展性优异,且支持混合采样策略进一步降低成本 [23] 行业意义与前景 - GVPO为可靠通用的大模型后训练提供全新范式,推动后训练从经验驱动走向理论保证 [25] - 该方法具备更稳定特性可降低大规模训练的工程风险,更灵活特性可支撑更复杂数据利用场景,更高效特性可在推理和对齐中获得更佳性价比 [26] - 在大模型迈向通用智能道路上,后训练已成为竞争焦点,GVPO的提出可能预示着下一代后训练的范式转变 [25]
不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
具身智能之心· 2025-10-10 08:02
强化学习提升大模型推理能力的机制 - 强化学习能提升大语言模型的复杂推理能力,但其内在机制此前不明朗 [2][5] - 研究首次揭示大模型通过类人方式学会推理,即将高层策略规划与底层程序执行相分离 [3][12] - 核心机制是模型先固化基础执行能力,再自主发展出策略规划能力 [13] 两阶段学习动力学 - 第一阶段为底层技能巩固,模型专注于掌握低级技能,如算术计算和格式规范,表现为执行token的熵值急剧下降 [14][23][24] - 第二阶段为高层规划探索,学习重心转向高级策略规划,表现为规划token的语义多样性提升,并与推理能力提升及解决方案链条延长直接相关 [14][17][28] - 对于强模型或易学习数据,第一阶段可能短暂甚至不存在 [27] 对特定现象的解释 - “顿悟时刻”是模型发现、掌握并强化某种高层策略(如自我反思)时的行为特征信号,并非偶然灵光 [33][34] - “长度缩放”现象源于更好的规划,模型探索到更丰富精细的策略后自然生成更长、更有结构的推理链条,导致输出越长越准 [35][37][38] - 整体token级熵值下降是因大量执行token变得高度可预测,而规划token的语义熵上升才真实反映策略探索进展 [39][40] 新算法HICRA的性能优势 - 针对现有RL方法对所有token无差别优化导致学习信号稀释的问题,提出了分层感知信用分配机制HICRA,其核心是聚焦稀疏但高价值的规划token的学习权重 [41][42][44] - 在多项数学推理基准测试中,HICRA持续超越GRPO基线方法,例如在Qwen3-4B-Instruct模型上,AIME24任务得分从GRPO的68.5提升至HICRA的73.1,提升5.4个百分点 [45][46] - 在多模态推理基准测试中,HICRA也表现优异,如在MiMO-VL模型上,Math Vista任务得分从GRPO的73.7提升至HICRA的80.7,提升7.0个百分点 [47] 关键指标与错误分析 - 语义熵是衡量策略探索的有效指标,能避免token级熵值和Pass@K指标的缺陷,清晰显示策略多样性并与性能提升正相关 [56][58][59] - 强化学习的主要优势在于修正高层策略失误(如逻辑缺陷、计划错误),而非细微的计算错误 [50][51] - 大多数高熵token并非规划token,仅依靠熵值识别具有精确语义功能的token存在局限性 [64][65]
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
36氪· 2025-09-01 12:38
大语言模型后训练强化学习技术演进 - 大语言模型后训练过程通过强化学习优化模型输出内容符合任务偏好 预训练使模型掌握通用语言能力 但后训练强化特定领域知识和应用能力 增强模型适应性和灵活性[5] - 强化学习核心是反馈机制 目标是增加好结果出现概率 降低坏结果出现概率 在大模型训练中采用人类反馈方式[5][8][9] PPO强化学习算法 - PPO采用近端策略优化机制 加入Critic价值函数和CLIP操作 保证策略更新不过度同时高效提升性能 成为强化学习领域标准方法之一[11] - PPO损失函数包含Critic价值函数评估相对进步程度 显著降低训练过程方差 同时采用Clip策略限制新策略相对于旧策略动作概率变化幅度 避免模型更新幅度过大[11][13] GRPO算法创新 - GRPO去除PPO中Critic价值函数 采用策略模型多次输出采样奖励平均值作为基准线 超过平均值视为正向Advantage 低于为负向Advantage 大幅降低内存需求和计算成本[14][16] - GRPO内存需求为基础模型0.5倍 训练速度比PPO快3-5倍 采用单策略网络架构 优势估计采用统计型群体投票方式[18] - GRPO存在严重稳定性问题 容易导致训练崩溃 需要大量数据降低策略梯度方差 中小规模训练中稳定性缺陷致命[18][19] DAPO算法改进 - DAPO在GRPO框架内进行工程改进 让Qwen2.5-32B模型在AIME 2024基准获得50分 优于同等规模DeepSeek模型 训练步数少50%[20] - 采用Clip-Higher机制将剪辑上下限解耦为ε_low和ε_high 增加ε_high值为低概率token留出更多空间 提升训练早期熵[21] - 实施动态采样过滤奖励为1和0的提示语 保留有效梯度样本 提高训练效率 采用Token级策略梯度损失保证长序列所有token公平贡献batch loss[21][22] GSPO范式突破 - GSPO将重要性采样从token级提升到序列级 基于整个序列似然度计算重要性比值 显著降低长序列中积累的高方差 提高训练稳定性[25][29][31] - 序列级重要性采样进行长度归一化 避免importance ratio对长度敏感造成不稳定 同一序列所有token共用同一重要性权重 裁剪时作用于整个回答而非部分token[31] - GSPO损失函数采用序列级重要性权重和clip操作 成为Qwen3强化学习核心实践框架 可能成为未来后训练强化学习新标准[25][31] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励信号问题 可同时优化多个响应属性如简洁性和准确度 避免模型响应长度大幅增加[33] - 采用显式过滤机制为每个问题采样更大候选响应组 过滤不符合目标属性响应 在所选组内使用标准奖励计算相对优势 无需复杂奖励工程[33][34] - GFPO主要干预Advantage估计层面 可与任何GRPO类似方法兼容 包括DAPO或带有Dual-Clip PPO损失的GRPO[35] GRPO其他缺陷 - GRPO存在奖励歧义性问题 多个奖励信号被合并为单一标量信号 模型无法知道具体因什么行为被奖励 即使调整不同奖励组件权重仍只能看到总奖励[39][41] - 在推理任务中 GRPO丢弃所有中间文本反馈 仅使用数值化奖励信号 文字反馈对模型有帮助但完全无法利用[43] - 多轮推理任务中每轮反馈重新输入到基础模型prompt 导致指数级分支 使GRPO在多轮任务训练变得非常困难[44]
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
机器之心· 2025-09-01 10:49
大模型后训练强化学习技术演进 - GRPO已成为大模型通用的强化学习算法,能够应用于广泛的后训练任务,各大研究团队近期发布的重磅成果如DAPO、GSPO、GFPO均是对GRPO范式的改进 [4][5][38] 后训练与强化学习基础 - 大语言模型开发包含预训练和后训练两个关键阶段,预训练使模型掌握通用语言能力,后训练则强化模型在特定领域的知识和应用能力,增强模型适应性和灵活性 [11][12] - 强化学习是后训练中不可或缺的核心部分,其核心机制是通过反馈增加好结果出现概率并降低坏结果出现概率 [13][14] - OpenAI在GPT训练中采用RLHF方法,通过人类反馈训练agent生成更有用的输出,但直接使用反馈会导致激励不充分和方差过大问题 [17][19] PPO机制及其局限性 - PPO通过引入Critic价值函数将绝对Reward反馈转变为相对评估的Advantage机制,显著降低训练方差 [21][22][23] - PPO采用Clip策略限制新策略相对于旧策略的动作概率变化幅度,避免模型单次更新幅度过大,同时加入Reference Model和KL散度作为双保险保障更新稳定性 [24][25][26] - PPO需同时训练策略模型和Critic模型,Critic模型大小与策略模型相同,带来额外内存和计算负担,训练成本高且难以扩展 [29] GRPO创新与优势 - GRPO通过去掉Critic模型解决PPO高成本问题,采用策略模型多次输出采样的平均Reward作为baseline计算Advantage,大幅降低内存需求和计算复杂度 [30][31][34][35] - 相比PPO需要基础模型3倍内存,GRPO仅需0.5倍内存,训练速度快3-5倍,采用单策略网络架构更简单直观 [37] - 但GRPO存在严重稳定性问题,容易导致训练崩溃,需要足够多的Batch数据来降低策略梯度方差,对中小规模训练不友好 [39] DAPO优化方案 - DAPO针对GRPO实践问题提出四项优化:Clip-Higher机制通过解耦剪辑范围提升训练早期熵值;动态采样过滤无效梯度样本;Token级策略梯度损失保证长序列所有token公平贡献;超长奖励调整避免过长响应 [42][43][44] - 使用DAPO算法让Qwen2.5-32B模型在AIME 2024基准获得50分,优于同等规模DeepSeek模型且训练步数少50% [41] GSPO范式突破 - GSPO将重要性采样从token级提升至序列级,基于整个序列似然度计算重要性比值,显著降低长序列方差积累问题,提高训练稳定性 [48][53][54] - 序列级重要性采样进行长度归一化,避免不同回答长度带来的不稳定,且裁剪时作用于整个序列而非部分token,更符合奖励信号整体性 [56][57][58] - 该方法很可能成为未来后训练强化学习新标准,特别适合专家混合模型场景 [59] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励难以联合优化多个属性问题,可同时优化简洁性、准确度等属性 [62][63] - 通过为每个问题采样更大候选响应组并显式过滤不符合目标属性的响应,无需复杂奖励工程即可实现多属性优化 [64][67] - GFPO在Advantage估计层面进行干预,可与任何GRPO类似方法兼容 [68] GRPO其他缺陷 - GRPO将多奖励信号合并为单一标量信号,模型无法区分奖励具体来源行为 [73][75] - 在多轮推理任务中会出现指数级分支问题,导致训练非常困难 [79]
冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世
机器之心· 2025-08-14 12:57
核心观点 - 微软研究员提出了一种名为 Group Filtered Policy Optimization (GFPO) 的新型强化学习算法,旨在解决推理模型中因强化学习导致的冗长响应问题,同时保持准确度 [2][3] - GFPO 通过采样更大的候选响应组并显式过滤所需属性(如简洁性),可在推理阶段将多余 token 长度削减多达 80% [3][11] - 该算法无需复杂奖励工程即可同时优化多个响应属性(如长度和准确度),且与现有 GRPO 变体兼容 [11][14] 技术背景 - GFPO 基于 DeepSeek 提出的组相对策略优化(GRPO),后者简化了近端策略优化(PPO)算法,但依赖单一标量奖励信号导致响应长度膨胀 [7][8] - GRPO 的局限性在于难以联合优化多个响应属性,例如准确度提升伴随长度增加 [8] GFPO 实现机制 - 核心方法:为每个问题采样更大响应组(G),按指标(如长度)过滤出前 k 个响应子集(S),仅用 S 计算策略梯度 [12] - 优势归一化:使用子集 S 的奖励均值(μ_S)和标准差(σ_S)归一化优势,优先奖励过滤后高奖励响应 [13] - 训练成本:采样更多响应增加训练开销,但推理阶段更短响应可抵消成本 [15] 自适应难度 GFPO - 动态调整留存响应数量(k):根据问题难度(奖励均值)分配 k 值(简单 4/中等 6/困难 8),聚焦计算资源于难题 [21] - 效果:减少简单问题冗长,同时通过保留更多推理链维持难题准确度 [21] 实验发现 长度缩减效果 - token 效率优化实现最大幅度缩减:在 AIME 24、GPQA、OmniMATH 等数据集上分别减少 84.6%、79.7%、82.6% 多余长度 [31] - 极端冗长响应(≥20k token)比例从 32% 降至 22% [39] 准确度表现 - 自适应难度 GFPO 在中等和极难问题上准确度超越 GRPO,同时缩短 47%-60% 长度 [40] - 更大分组规模(如 8/24)通过更多采样维持难题准确度 [40] 关键参数影响 - 留存响应比例(k/G)25-33% 为最佳平衡点,保留比例越小长度增益递减 [28] - 分组规模(G)扩大可提升难题准确度,如 Shortest 8/24 与 GRPO 准确度相当 [40] 应用场景扩展 - GFPO 可集成事实性、多样性等指标优化其他属性,适用于推理解答验证(AIME 25 解答步骤冗长减少 94.4%)[16][44]