GRPO遭遇瓶颈？G²RPO-A让自适应指导为小模型推理能力「开外挂」

文章核心观点 - 香港中文大学（深圳）T-Lab团队提出了一种名为G²RPO-A的全新强化学习算法，旨在解决小规模语言模型在强化学习训练中面临的“稀疏奖励”核心困境，通过注入高质量思维轨迹并动态调整指导强度，显著提升了小模型在数学推理和代码生成任务上的性能 [2][3][12][13] 小规模语言模型的强化学习困境 - 现有强化学习方法如GRPO在7B+参数的大模型上效果显著，但在1.7B或更小参数的小模型上性能提升微乎其微 [2] - 问题的核心在于“稀疏奖励”困境：由于小模型自身能力有限，在复杂推理任务中难以生成高质量思考链，导致大部分训练过程无法获得有效正向奖励信号 [8] - 研究团队将小模型在RL中的困境比喻为“新手司机开手动挡”，缺乏正确引导难以完成复杂操作 [11] G²RPO-A算法核心架构与创新 - 算法核心创新包含两个关键组件：指导机制与自适应调整 [16] - 指导机制：在模型生成训练轨迹的过程中，注入部分高质量的思维轨迹作为引导，使模型朝向生成更高质量候选答案的方向发展 [17] - 自适应调整：根据模型的实时学习状态，动态调整指导长度和指导比例，实现“智能变速” [17] - 自适应策略的核心思想是根据最近几个训练步骤的奖励变化自动调整指导长度，奖励上升则缩短指导以鼓励自主推理，奖励下降则拉长指导以降低训练难度 [27][28][29] G²RPO-A的实验效果与性能提升 - 数学推理任务：在多个数学基准测试上，G²RPO-A显著优于基础模型、标准GRPO和监督微调方法 [22] - Qwen3-1.7B模型在MATH500测试集上的准确率从50.96%提升至67.21% [3][22][23] - Qwen3-1.7B模型在GPQA测试集上的准确率从27.45%提升至32.35% [22][23] - Qwen3-8B模型在MATH500测试集上的准确率从71.32%提升至82.08% [22][23] - 代码生成任务：在代码生成基准上，G²RPO-A整体表现最优，对小模型的提升尤为明显 [23][24] - Qwen3-0.6B模型在HumanEval上的准确率从32.32%提升至44.96% [24][25] - Qwen3-1.7B模型在HumanEval上的准确率从46.08%大幅提升至75.93% [3][24][25] - Qwen3-0.6B模型在LiveCodeBench上的准确率从17.07%提升至23.14% [24][25] G²RPO-A相较于简单指导方法的优势 - 简单的固定长度指导方法在早期训练阶段有短暂提升，但很快效果与标准GRPO无异，无法持续提升模型性能 [7] - 简单指导方法虽然能短暂抬高奖励，但其产生的优势信号标准差极低，严重阻碍了小模型的训练效率，未能真正解决训练信号区分度不足的问题 [19] - G²RPO-A通过自适应调整，有效避免了简单指导的陷阱，确保了训练过程中既有高奖励候选，也保持了有区分度的优势信号 [15][19] 算法设计的洞察与配置分析 - 实验分析发现，代码生成任务通常比数学推理任务需要更高的指导比例，且小模型通常比大模型更依赖指导，这直接促成了采用自适应策略而非固定超参的动机 [21] - 引入指导后，模型更容易采样到高奖励候选，使得奖励信号在训练过程中显著变得更密集，有效缓解了稀疏奖励问题 [10]