训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD
量子位·2026-02-09 17:50

文章核心观点 - 清华大学与慕尼黑大学团队提出的MoPPS框架,通过一种轻量化的“先预测,再优化”范式,能够在不依赖昂贵大模型自评估的情况下,动态预测并筛选出难度最合适的训练题目,从而显著降低大语言模型强化学习微调的成本并大幅提升训练效率 [3][6][15][31] 大模型强化微调面临的效率挑战 - 以DeepSeek R1为代表,基于强化学习微调能提升模型推理能力,但训练过程成本高昂,主要源于“低效”学习,即大量算力被浪费在过于简单或过于困难、无法提供有效学习信号的题目上 [1] - 传统“题海战术”从题库中随机抽题训练,会导致梯度坍缩,资源被白白浪费 [2] - 传统“先测后学”策略依赖大模型对候选题目集进行“自测”来筛选,虽然能提升效率,但“自测”本身需要大量LLM推理,成本依然高昂 [2][8] MoPPS框架的核心机制 - MoPPS将每一道训练题目建模为一个“老虎机”臂,其核心目标是估计并优先选择成功率接近0.5的中等难度题目 [9][11] - 采用极低开销的轻量化贝叶斯模型进行难度预测:为每个题目维护一个Beta分布,通过模型训练产生的“成功/失败”二值反馈直接递归更新分布参数,计算量极低 [10][11][12] - 引入时间衰减因子,使难度估计能适应模型能力变化的动态环境 [11] - 使用Thompson Sampling策略进行主动题目筛选,平衡对已知最优题目的利用和对潜在有价值新题的探索 [11][14][20] MoPPS框架的性能优势 - 大幅降低算力成本:与需要大量额外推理的“先测后学”方法相比,MoPPS达到相同性能所需的Rollouts减少了高达78.46% [18] - 显著提升训练效率:相较于传统的“题海战术”,MoPPS实现了高达1.6倍至1.8倍的训练加速,且最终训练效果更好 [21] - 难度预测精准可靠:MoPPS预测的题目难度与真实难度之间具有极高的相关性,证明了其预测的有效性 [25][29] 实验数据与效果验证 - 在AIME24、AMC23、MATH500等多个数学推理基准测试中,基于Qwen-1.5B模型,MoPPS方法取得了32.92、66.72、84.82的分数,性能优于Uniform采样和HIR方法,与需要大量额外计算的DS方法相当甚至更优,且仅使用了737k Rollouts [22] - 基于Qwen-7B模型,MoPPS方法在多个基准上取得48.54至91.04的分数,性能接近DS方法,但Rollouts仅为287k,远低于DS方法的1147k [22] - MoPPS框架具有良好的兼容性,可作为即插即用的“数据筛选器”,适配PPO、GRPO、Reinforce++等多种强化学习算法,并均能带来性能提升 [26][27] 方法适用性与行业影响 - MoPPS框架支持不同的题目筛选策略,并能结合先验知识以加速前期训练 [28][31] - 该工作已被KDD 2026接收,并受到阿里千问、腾讯混元、蚂蚁等业界公司,以及多位知名学者的关注和引用 [5] - 该研究为大模型强化微调领域提供了一个“降本增效”的利器,未来有希望应用于更大规模的大模型强化学习后训练 [31]