文章核心观点 - 大模型后训练是AI进化的关键环节,核心目标是增强模型推理能力、对齐人类偏好并保持稳定高效 [1] - 作业帮与香港科技大学(广州)团队提出全新后训练方法GVPO,该方法通过避免重要性采样解决了GRPO的训练不稳定和超参数敏感问题 [2] - GVPO在理论上提供唯一最优解保证,在数学推理任务实验中表现全面超越GRPO和DrGRPO等现有方法 [2][21] - GVPO标志着后训练从经验驱动转向理论保证,可能引发下一代后训练的范式转变,具备更稳定、更灵活、更高效的特点 [25][26] GVPO设计动机与方法 - 研究团队受DPO启发,旨在GRPO场景下利用KL约束下奖励最大化的解析解,但面临公式中Z(x)计算不可行的实际困难 [5][6] - GVPO通过保证同一提示词下所有采样对应梯度权重之和为零,使Z(x)自然消掉,从而规避计算难题 [6] - GVPO的损失函数等价于均方误差损失,其物理意义是让隐式奖励去逼近真实奖励 [10][11] GVPO关键优势 - 拥有唯一最优解保证,研究团队从必要性和充分性证明当且仅当隐式奖励等于真实奖励时达到唯一最优解 [13] - 无须重要性采样,对训练时的采样分布几乎无限制,能适配任意满足条件的分布,支持无需重要性采样的离线策略训练 [14] - 能够充分利用人类专家数据、蒸馏数据和历史数据,避免重要性采样常见的训练不稳定问题,更契合大规模工业级应用 [14] GVPO分析视角 - 负对数似然视角下,GVPO损失函数可表示为带权重的负对数似然,涵盖传统策略梯度方法并允许整合历史数据和异构数据源 [17] - 均方误差视角下,优化目标等价于最小化隐式奖励与实际奖励中心距离的偏差,保证收敛到唯一全局最优解 [18] - 强化学习视角下,损失函数包含组相对奖励项、方差正则项和协方差正则项,共同保障训练稳定性并避免熵塌缩 [19][20] 实验结果 - 在数学推理任务系统对比中,基座模型Qwen25-Math-7B使用GVPO后在AIME2024、AMC、MATH500、Minerva、OlympiadBench五个基准测试全面领先 [21] - GVPO在AIME2024得分从基座的1468提升至2072,在AMC从3855提升至6265,在MATH500从6400提升至8380,在Minerva从2720提升至4595,在OlympiadBench从3066提升至4696 [21] - 消融实验显示GVPO对超参数β不敏感几乎无需调参,在采样数量增加时扩展性优异,且支持混合采样策略进一步降低成本 [23] 行业意义与前景 - GVPO为可靠通用的大模型后训练提供全新范式,推动后训练从经验驱动走向理论保证 [25] - 该方法具备更稳定特性可降低大规模训练的工程风险,更灵活特性可支撑更复杂数据利用场景,更高效特性可在推理和对齐中获得更佳性价比 [26] - 在大模型迈向通用智能道路上,后训练已成为竞争焦点,GVPO的提出可能预示着下一代后训练的范式转变 [25]
NeurIPS 25 | GRPO进阶版来了,GVPO重构大模型后训练范式
机器之心·2025-10-14 10:06