核心观点 - 提出一种名为判别式约束优化(DisCO)的新框架,用于强化大型推理模型,该框架基于判别式学习原则,旨在增加正确答案得分并减少错误答案得分[3] - DisCO框架成功解决了群体相对策略优化(GRPO)及其变体存在的难度偏差和熵不稳定性问题[6][27] - 实验结果表明,DisCO在增强大型模型数学推理能力方面显著优于GRPO及其改进版本,在1.5B模型的六个基准任务中平均增益比GRPO高7%,比DAPO高6%[4] GRPO问题分析 - 发现GRPO在二元奖励设置下存在难度偏差问题,其优化目标中的加权项导致模型只重点学习"中等难度"问题,而忽视正确率较高或较低的问题[12] - 实验证实不适当的加权有害影响,移除加权后的变体"GRPO_RW"能在更多问题上实现100%正确率和更少问题上实现0%正确率[12] - 揭示了GRPO优化目标与判别式监督学习AUC最大化思路之间的联系[11] DisCO方法设计 - 采用判别式目标函数,其优化目标类似于AUC优化,直接增加正确答案得分并减少错误答案得分[16] - 引入基于分布鲁棒性优化(DRO)的目标函数来解决稀疏奖励导致的训练数据不平衡问题,该设计借鉴了局部AUC优化技术[17][18] - 采用约束优化方法稳定训练,通过非凸不等式约束优化策略将KL散度约束替换为平滑的方形铰链惩罚项,避免了裁剪操作引起的熵崩塌现象[19][20] 实验结果 - 在1.5B模型实验中,DisCO在六个数学基准数据集上始终显著优于其他基线方法,训练和推理长度均为8k的DisCO比GRPO平均提高7%[22] - 在7B模型实验中,DisCO大幅优于所有基线方法,比GRPO平均提高3.5%[22] - 训练动态分析显示DisCO方法最为稳定,训练奖励不断增加且生成熵保持相对稳定,而GRPO及其变体都出现了熵崩塌或熵过度增长问题[27][28] 技术优势 - 完全消除了GRPO存在的难度偏差问题[6] - 通过使用非裁剪评分函数和约束优化方法,解决了GRPO及其变体的熵不稳定性,获得了长期稳定的训练动态[6][27] - 允许结合先进的判别式学习技术来解决数据不平衡问题,特别是在训练过程中错误答案远多于正确答案的情况[4][17]
NeurIPS25高分论文|以判别式监督学习强化推理LLM,解决难度偏差和熵崩塌难题
 机器之心·2025-10-26 15:00