Workflow
GDPO
icon
搜索文档
挑战GRPO,英伟达提出GDPO,专攻多奖励优化
具身智能之心· 2026-01-13 08:54
文章核心观点 - 英伟达的研究指出,在多奖励强化学习优化场景中,当前广泛采用的GRPO算法存在根本性缺陷,它会将不同的奖励信号混合归一化,导致训练信号被削弱和信息损失 [2][4] - 为解决此问题,英伟达提出了一种新的策略优化方法GDPO,该方法通过对各个奖励信号分别进行归一化,保留了奖励间的相对差异,从而实现了更准确的多奖励优化和更稳定的训练过程 [4] - 在工具调用、数学推理和代码推理等多项任务上的实验结果表明,GDPO在所有设置中均稳定地优于GRPO,能够实现更强的目标偏好对齐和更优的跨目标权衡 [7][37] GRPO算法在多奖励优化中的问题 - GRPO通常用于优化单一目标奖励,但在多奖励优化中,常见的做法是将所有奖励分量相加后直接应用GRPO,这会导致问题 [10] - GRPO会对聚合后的总奖励进行群组级归一化,这本质上压缩了奖励信号,导致优势估计中的信息损失 [10] - 具体示例显示,在涉及两个二值奖励的场景中,尽管存在六种不同的奖励组合,但GRPO归一化后只产生两个唯一的优势组,例如(0,1)、(0,2)和(1,2)会产生相同的归一化优势值,这削弱了学习信号 [11][12] - 这种局限性可能引入训练不稳定的风险,在数学推理任务中,使用GRPO训练时,正确率奖励分数在约400个训练步后开始下降,出现了部分训练坍塌 [12] - 移除标准差归一化项的GRPO变体仅能略微增加不同优势组的数量,但并未带来更好的收敛性或更优的下游评估表现,在工具调用任务中甚至导致格式奖励完全失败 [13][26] GDPO算法的核心改进 - GDPO的核心创新在于“解耦归一化”,即在聚合之前对每个奖励分别进行群组级归一化,计算各自的归一化优势,然后再求和并进行批次级优势归一化,以保持数值稳定 [17] - 这种方法避免了不同奖励信号被混合“抹平”,更真实地保留了它们的相对差异 [4] - 理论分析表明,GDPO能产生显著更多的不同优势组,随着rollout数量或奖励数量的增加,其优势粒度也逐步增大,实现了更精确的优势估计 [18] - GDPO能够持续产生更稳定的训练曲线和更好的收敛性,例如在工具调用任务中,GDPO在格式奖励和正确率奖励上都实现了更好的收敛 [19] - 论文还探讨了当不同目标重要性不相等时,如何通过调整奖励权重或修改奖励函数来优先考虑更重要的目标 [19] 工具调用任务实验结果 - 在工具调用任务上,GDPO在所有运行中都能在格式奖励和正确率奖励上收敛到比GRPO更高的值 [23] - 在BFCL-v3评估中,对于Qwen2.5-Instruct-1.5B模型,GDPO在Live任务上的整体准确率从GRPO的50.63%提升至55.36%,在Non-Live任务上从37.87%提升至40.58%,平均准确率从30.18%提升至32.81%,正确格式比例从76.33%提升至80.66% [25] - 对于Qwen2.5-Instruct-3B模型,GDPO在Live任务上的整体准确率从GRPO的69.23%提升至71.22%,平均准确率从39.20%提升至40.87% [25] - 移除标准差归一化项的GRPO变体在格式奖励上完全失败,在BFCL-v3上的正确格式比例为0% [26] 数学推理任务实验结果 - 在数学推理任务中,GDPO比GRPO更有效地恢复了正确率奖励,并且避免了GRPO在约400步后出现的训练不稳定性 [29] - 对于DeepSeek-R1-1.5B模型,GDPO在所有基准测试上都优于GRPO,在MATH、AIME和Olympiad基准上的准确率分别提升了2.6%、6.7%和2.3% [30] - 对于DeepSeek-R1-7B模型,GDPO在更具挑战性的AIME基准上将准确率从GRPO的50.2%提升至53.1%,同时将超长率从2.1%大幅降低至0.2% [30][34] - 对于Qwen3-4B-Instruct模型,GDPO在AIME基准上将准确率从GRPO的54.6%提升至56.9%,同时将超长率从2.5%大幅降低至0.1% [30][34] 代码推理任务实验结果 - 在代码推理任务的双奖励设置下,GDPO在所有任务上都提升了通过率,同时保持相似的超长比例 [35] - 例如,在Codecontests任务上,GDPO将通过率从GRPO的63.2%提升至65.8%,超长比例仅从14.2%微增至14.3% [35] - 在三奖励设置下,GDPO在所有目标上都实现了更有利的平衡,在保持与GRPO相似通过率的同时,显著降低了超长比例和bug比例 [36] - 具体在Taco任务的三奖励设置中,GDPO将超长比例从GRPO的14.7%降低至10.6%,同时将bug比例从30.0%降低至28.0% [36]
挑战GRPO,英伟达提出GDPO,专攻多奖励优化
机器之心· 2026-01-11 12:00
文章核心观点 - 英伟达的研究团队提出了一种名为GDPO(组奖励解耦归一化策略优化)的新强化学习算法,旨在解决当前广泛采用的GRPO(组相对策略优化)算法在多奖励优化场景中的固有缺陷 [1][2] - 核心论点是,在多奖励优化中,GRPO会将不同奖励组合归一化为相同的优势值,从而削弱训练信号并可能导致训练不稳定,而GDPO通过对各个奖励信号分别进行归一化,保留了奖励间的相对差异,实现了更精确的优势估计和更稳定的训练 [2][9][11] 技术背景与问题 - GRPO及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法,是促使DeepSeek-R1成功的基础技术之一 [3] - 随着语言模型能力提升,行业趋势是同时优化多个奖励(如准确率、响应长度、格式质量),以更好地与人类偏好保持一致 [1][9] - GRPO在多奖励优化中的根本性局限在于其群组级奖励归一化会过度压缩丰富的奖励信号,导致信息损失 [9][10][11] - 例如,在一个简单的双奖励二值场景中,尽管存在六种不同的奖励组合,GRPO归一化后只产生两个唯一的优势组,使得(0,1)和(0,2)产生相同的优势值,而直觉上(0,2)应产生更强的学习信号 [10][11] - 这种局限性可能引入训练不稳定的风险,在数学推理任务中,使用GRPO训练时,正确率奖励分数在约400个训练步后开始下降,表明出现了部分训练坍塌 [11] GDPO解决方案 - GDPO的核心改进在于,与GRPO直接对聚合奖励和进行群组级归一化不同,它通过在聚合之前对每个奖励分别进行群组级归一化来解耦这一过程 [16] - 具体而言,GDPO为每个奖励单独计算归一化优势,然后将所有目标的归一化优势相加,最后对多奖励优势之和应用批次级优势归一化,以确保数值范围稳定 [16] - 这种方法避免了不同奖励被混合“抹平”,更真实地保留了它们的相对差异 [2][17] - 理论验证显示,在两个奖励、rollout数量变化的场景中,GDPO始终产生显著更多的不同优势组,且随着rollout数量增加,差距不断扩大 [17] - 当固定rollout数量为4并增加奖励数量时,GDPO也随着目标数量增长表现出逐步增大的优势粒度 [17] 实验结果:工具调用任务 - 在工具调用任务上,GDPO在所有运行中都能在格式奖励和正确率奖励上收敛到更高的值 [22] - 对于正确率奖励,GDPO在早期阶段表现出更快的改善,并在后期达到比GRPO基线更高的奖励分数 [22] - 在BFCL-v3评估中,对于Qwen2.5-Instruct-1.5B模型,GDPO在Live任务上整体准确率从GRPO的50.63%提升至55.36%,在Non-Live任务上从37.87%提升至40.58%,整体平均准确率从30.18%提升至32.81%,正确格式比例从76.33%提升至80.66% [24][25] - 对于Qwen2.5-Instruct-3B模型,GDPO在Live任务上整体准确率从GRPO的69.23%提升至71.22%,整体平均准确率从39.20%提升至40.87% [25] - 移除标准差归一化项的“无标准差GRPO”变体在格式奖励上完全失败,在BFCL-v3上的正确格式比例为0%,表明简单地增加优势多样性可能会给训练引入不稳定性 [25][26] 实验结果:数学推理任务 - 在数学推理任务中,GDPO比GRPO更有效地恢复了正确率奖励,并消除了GRPO在约400步后观察到的训练坍塌问题 [11][28] - 对于DeepSeek-R1-1.5B模型,GDPO在所有基准测试上都优于GRPO:在MATH准确率从83.6%提升至86.2%,在AIME准确率从23.1%提升至29.4%,在Olympiad准确率从44.3%提升至46.6% [29][33] - 同时,GDPO显著降低了响应超长比例:在AIME任务上,DeepSeek-R1-1.5B的超长比例从GRPO的10.8%降至6.5%;DeepSeek-R1-7B从2.1%降至0.2%;Qwen3-4B-Instruct从2.5%降至0.1% [29][33] - 对于DeepSeek-R1-7B模型,GDPO在更具挑战性的AIME基准测试上将准确率从50.2%提高了近3%至53.1% [29] 实验结果:代码推理任务 - 在代码推理任务的双奖励设置下,GDPO在所有任务上都提升了通过率,同时保持相似的超长比例 [34] - 例如,在Codecontests上,通过率从GRPO的63.2%提升至65.8%,超长比例仅从14.2%微增至14.3%;在Taco上,通过率从45.1%提升至48.4%,同时超长比例从11.8%降低至10.8% [34][35] - 在三奖励设置下,GDPO在所有目标上都实现了更有利的平衡,在保持与GRPO相似通过率的同时,显著降低了超长比例和bug比例 [35] - 例如,对于DeepSeek-R1-7B模型,在Codeforces任务的三奖励设置下,GDPO将超长比例从GRPO的16.9%降至13.6%,bug比例从2.5%降至1.8% [35] - 总体结果表明GDPO在奖励信号数量增加时仍然有效,在双奖励和三奖励配置中都始终比GRPO实现更优的跨目标权衡 [36] 行业影响与意义 - 该研究指出了当前主流强化学习算法GRPO在应对多目标对齐这一行业重要趋势时的局限性 [1][9] - GDPO的提出为训练更符合多样化人类偏好、在多场景下表现更稳定的大型语言模型提供了新的技术路径 [2][18] - 实验证明GDPO在工具调用、数学推理和代码推理等多类任务上,在正确性指标和约束条件遵守方面都稳定地优于GRPO,展示了其有效性和良好泛化能力 [6] - 该技术有望被行业采纳,用于提升下一代语言模型的综合性能与对齐能力 [3][18]