行业技术背景与挑战 - 以DeepSeek R1为代表,基于强化学习(RLVR)微调显著提升大语言模型推理能力,但强化微调成本高昂 [1] - 高昂成本主要源于训练过程中的“低效”,大量算力浪费在无法提供有效学习信号的题目上 [1] - 现有主流“挑题”策略存在明显缺陷:“题海战术”(Uniform Sampling)导致大量算力浪费;“先测后学”(Dynamic Sampling, DS)依赖大模型“自测”,推理成本依然高昂 [2] MoPPS框架核心创新 - 清华大学THU-IDM团队与慕尼黑大学CompVis团队合作,提出全新框架:基于模型预测的提示选择(Model Predictive Prompt Selection, MoPPS) [2] - 核心解决思路是无需昂贵的大模型评估,动态预测题目难度并精准挑选训练数据,以更高效提升模型推理能力 [5] - 将每道题目建模为“老虎机”,每个题目有一个未知的“获胜概率”(即模型在当前参数下答对的成功率) [7] - 采用轻量化的贝叶斯难度预测,为每个题目配备Beta分布来估计其成功率,并通过二值反馈递归更新,计算量极低 [8] - 引入时间衰减因子以适应模型能力动态变化的环境 [9] - 使用Thompson Sampling进行主动问题筛选,从候选集中挑选最接近目标难度(成功率约0.5)的“黄金题”,平衡探索与利用 [10] 性能与效率优势 - 与需要大量额外推理的“先测后学”方法相比,MoPPS达到相同性能所需的Rollouts减少了高达78.46% [15] - 相较于传统的“题海战术”,MoPPS实现了高达1.6倍至1.8倍的训练加速,且训练效果更好 [16] - 在R1-Distill-Owen-1.5B模型上,MoPPS在多项基准测试中的平均性能达到51.83,与DS(Oracle)的52.00相当,但仅使用737k Rollouts,远低于DS的2933k [17] - 在R1-Distill-Qwen-7B模型上,MoPPS平均性能达62.20,与DS的62.42相当,但仅使用287k Rollouts,远低于DS的1147k [17] - MoPPS预测的题目难度与真实难度之间具有极高的相关性(Spearman Rank Correlation),证明了其预测的有效性和可靠性 [19] 方法适用性与行业影响 - MoPPS作为“数据筛选器”即插即用,可兼容PPO、GRPO、Reinforce++等多种强化学习算法 [20] - 在PPO (k=1)算法下,MoPPS在CD-34和CD-4基准上的性能分别为69.12和40.11,显著优于Uniform采样的62.33和32.65 [23] - 支持不同采样策略并可引入先验信息,默认采用Top-B采样,也可扩展为阈值采样,并能结合先验知识加速前期训练 [24] - 该工作已被KDD 2026接收,受到包括阿里千问、腾讯混元、蚂蚁等业界的关注,以及UIUC张潼老师、UCL汪军老师、UvA Max Welling教授等知名学界团队的引用 [4] - 该研究为大模型强化微调领域提供了一个“降本增效”的利器,其核心贡献在于提出了一种全新的“先预测,再优化”范式 [26]
训练加速1.8倍,推理开销降78%,精准筛选题目高效加速RL训练
36氪·2026-02-09 18:39