训练加速1.8倍，推理开销降78%，精准筛选题目高效加速RL训练

行业技术背景与挑战 - 以DeepSeek R1为代表，基于强化学习（RLVR）微调显著提升大语言模型推理能力，但强化微调成本高昂 [1] - 高昂成本主要源于训练过程中的“低效”，大量算力浪费在无法提供有效学习信号的题目上 [1] - 现有主流“挑题”策略存在明显缺陷：“题海战术”（Uniform Sampling）导致大量算力浪费；“先测后学”（Dynamic Sampling, DS）依赖大模型“自测”，推理成本依然高昂 [2] MoPPS框架核心创新 - 清华大学THU-IDM团队与慕尼黑大学CompVis团队合作，提出全新框架：基于模型预测的提示选择（Model Predictive Prompt Selection, MoPPS） [2] - 核心解决思路是无需昂贵的大模型评估，动态预测题目难度并精准挑选训练数据，以更高效提升模型推理能力 [5] - 将每道题目建模为“老虎机”，每个题目有一个未知的“获胜概率”（即模型在当前参数下答对的成功率） [7] - 采用轻量化的贝叶斯难度预测，为每个题目配备Beta分布来估计其成功率，并通过二值反馈递归更新，计算量极低 [8] - 引入时间衰减因子以适应模型能力动态变化的环境 [9] - 使用Thompson Sampling进行主动问题筛选，从候选集中挑选最接近目标难度（成功率约0.5）的“黄金题”，平衡探索与利用 [10] 性能与效率优势 - 与需要大量额外推理的“先测后学”方法相比，MoPPS达到相同性能所需的Rollouts减少了高达78.46% [15] - 相较于传统的“题海战术”，MoPPS实现了高达1.6倍至1.8倍的训练加速，且训练效果更好 [16] - 在R1-Distill-Owen-1.5B模型上，MoPPS在多项基准测试中的平均性能达到51.83，与DS（Oracle）的52.00相当，但仅使用737k Rollouts，远低于DS的2933k [17] - 在R1-Distill-Qwen-7B模型上，MoPPS平均性能达62.20，与DS的62.42相当，但仅使用287k Rollouts，远低于DS的1147k [17] - MoPPS预测的题目难度与真实难度之间具有极高的相关性（Spearman Rank Correlation），证明了其预测的有效性和可靠性 [19] 方法适用性与行业影响 - MoPPS作为“数据筛选器”即插即用，可兼容PPO、GRPO、Reinforce++等多种强化学习算法 [20] - 在PPO (k=1)算法下，MoPPS在CD-34和CD-4基准上的性能分别为69.12和40.11，显著优于Uniform采样的62.33和32.65 [23] - 支持不同采样策略并可引入先验信息，默认采用Top-B采样，也可扩展为阈值采样，并能结合先验知识加速前期训练 [24] - 该工作已被KDD 2026接收，受到包括阿里千问、腾讯混元、蚂蚁等业界的关注，以及UIUC张潼老师、UCL汪军老师、UvA Max Welling教授等知名学界团队的引用 [4] - 该研究为大模型强化微调领域提供了一个“降本增效”的利器，其核心贡献在于提出了一种全新的“先预测，再优化”范式 [26]