GRPO - 财报，业绩电话会，研报，新闻

GRPO

搜索文档

NeurIPS25高分论文｜以判别式监督学习强化推理LLM，解决难度偏差和熵崩塌难题

机器之心· 2025-10-26 15:00

核心观点 - 提出一种名为判别式约束优化（DisCO）的新框架，用于强化大型推理模型，该框架基于判别式学习原则，旨在增加正确答案得分并减少错误答案得分[3] - DisCO框架成功解决了群体相对策略优化（GRPO）及其变体存在的难度偏差和熵不稳定性问题[6][27] - 实验结果表明，DisCO在增强大型模型数学推理能力方面显著优于GRPO及其改进版本，在1.5B模型的六个基准任务中平均增益比GRPO高7%，比DAPO高6%[4] GRPO问题分析 - 发现GRPO在二元奖励设置下存在难度偏差问题，其优化目标中的加权项导致模型只重点学习"中等难度"问题，而忽视正确率较高或较低的问题[12] - 实验证实不适当的加权有害影响，移除加权后的变体"GRPO_RW"能在更多问题上实现100%正确率和更少问题上实现0%正确率[12] - 揭示了GRPO优化目标与判别式监督学习AUC最大化思路之间的联系[11] DisCO方法设计 - 采用判别式目标函数，其优化目标类似于AUC优化，直接增加正确答案得分并减少错误答案得分[16] - 引入基于分布鲁棒性优化（DRO）的目标函数来解决稀疏奖励导致的训练数据不平衡问题，该设计借鉴了局部AUC优化技术[17][18] - 采用约束优化方法稳定训练，通过非凸不等式约束优化策略将KL散度约束替换为平滑的方形铰链惩罚项，避免了裁剪操作引起的熵崩塌现象[19][20] 实验结果 - 在1.5B模型实验中，DisCO在六个数学基准数据集上始终显著优于其他基线方法，训练和推理长度均为8k的DisCO比GRPO平均提高7%[22] - 在7B模型实验中，DisCO大幅优于所有基线方法，比GRPO平均提高3.5%[22] - 训练动态分析显示DisCO方法最为稳定，训练奖励不断增加且生成熵保持相对稳定，而GRPO及其变体都出现了熵崩塌或熵过度增长问题[27][28] 技术优势 - 完全消除了GRPO存在的难度偏差问题[6] - 通过使用非裁剪评分函数和约束优化方法，解决了GRPO及其变体的熵不稳定性，获得了长期稳定的训练动态[6][27] - 允许结合先进的判别式学习技术来解决数据不平衡问题，特别是在训练过程中错误答案远多于正确答案的情况[4][17]

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

机器之心· 2025-10-22 16:46

文章核心观点 - 腾讯优图提出了一种名为Training-Free GRPO的新方法，将强化学习中的GRPO算法完整迁移到上下文学习空间，实现了无需更新模型参数的强化学习效果 [4][6][28] - 该方法在保留GRPO多路径探索、组内优势等核心优点的同时，显著降低了超大模型进行强化学习的成本和工程难度，使中小团队也能应用 [3][4][21][24] - 在数学推理和网页搜索等场景的实验中，该方法仅用100个训练样本和8-18美元成本，就在671B模型上实现了性能提升，并展现出更好的泛化能力 [13][14][17][25] 技术方法创新 - 核心创新在于不更新模型参数，而是将GRPO的“学习过程”搬进上下文空间，通过生成多条解答路径、比较组内优劣、根据优势信号更新文本型LoRA来实现学习 [4][10][11] - 方法完全对齐参数空间RL训练流程：多轮迭代学习、并行生成多条解答、提取文本型组内优势、优化文本型LoRA [10][20][26] - 与Self-Refine等就地改写方法不同，该方法在独立数据集上进行多轮迭代训练，对测试集的Out-of-Domain数据也有显著提升 [25] 实验效果与成本优势 - 在数学推理任务中，仅使用100个训练样本和约8-18美元成本，就在671B的DeepSeek-V3.1-Terminus模型上提升性能：AIME24指标从68.6提升至72.6，AIME25从52.9提升至54.0 [13][15] - 结合代码解释器时，AIME25指标从67.9提升至73.3，提升5.4个百分点；同时工具调用次数减少，表明模型学会了更高效使用工具 [14][15] - 在网页搜索场景中，Pass@1指标从63.2%提升至67.8%，提升4.6个百分点 [17][18] - 成本相比传统RL训练大幅降低，32B量级模型训练一次RL可能花费上万美元，而该方法仅需8-18美元 [4][24] 行业应用价值 - 该方法使超大模型的RL优化变得廉价、灵活、可持续，为中小团队和个人开发者提供了用得起的强化学习方案 [3][4][28] - 只需一个统一模型和API即可泛化到不同场景，避免了维护多个专用模型的系统复杂度和成本 [25] - 技术已开源并将集成到Youtu-Agent框架中，帮助开发者提升各种自定义场景的效果 [6][26]