突破通用领域推理的瓶颈！清华NLP实验室强化学习新研究RLPR

核心观点 - 清华大学自然语言处理实验室提出基于参考概率奖励的强化学习（RLPR）技术，解决了现有RLVR范式在通用领域的应用局限 [4][7][24] - RLPR通过Prob-to-Reward方法和动态过滤机制显著提升奖励质量和训练稳定性，在Gemma、Llama、Qwen等主流模型上验证有效 [7][8][22][24] - 该方法利用大语言模型生成参考答案的概率作为奖励信号，无需领域特定规则验证器，实现领域无关的高效奖励生成 [13][14] 技术原理 - 观察到LLM生成参考答案的概率与推理质量高度相关，错误推理会导致参考答案生成概率显著下降 [11] - 提出构建不含思维链过程的对照奖励，通过差值计算去除无关因素干扰，实现奖励纠偏 [16] - 采用基于奖励标准差的动态过滤机制，结合EMA更新阈值，提升训练稳定性 [17] 性能优势 - PR奖励在0.5B规模即优于规则奖励和验证器模型奖励，通用领域质量可达0.91 ROC-AUC [19] - 在Qwen2.5 3B模型上使用不同训练模板均能取得稳定性能提升 [21] - 在Gemma、Llama等基座模型上超越使用规则奖励的RLVR基线 [22] 应用价值 - 突破现有RLVR局限于数学/代码领域的限制，可拓展至自然语言通用领域 [3][4][24] - 仅需一次前向传播即可生成奖励，显著降低人力和工程资源投入 [13] - 相关代码、模型、数据和论文已全部开源 [8][9]