RLVR

搜索文档
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
机器之心· 2025-06-27 08:49
余天予,清华大学计算机系一年级博士生,导师为清华大学自然语言处理实验室刘知远副教授。研究兴 趣主要包括高效多模态大模型、多模态大模型对齐和强化学习,在 CVPR、AAAI等人工智能领域的著 名国际会议和期刊发表多篇学术论文,谷歌学术引用1000余次。 Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward,基于可验证奖励的强化学习)的巨大潜力。 然而,现有方法的应用范围局限于数学和代码等少数领域。面对自然语言固有的丰富多样性,依赖规则 验证器的方法难以拓展到通用领域上。 针对这一关键挑战,清华大学自然语言处理实验室提出了一项关键性技术 —— 基于参考概率奖励的强 化学习(Reinforcement Learning with Reference Probability Reward, RLPR )。 这项技术通过 Prob-to-Reward 方法显著提高了概率奖励(Probability-based Reward, PR)的质 量,相比基于似然度的基线方法取得了明显更佳的性 ...
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
量子位· 2025-04-02 15:40
大模型强化学习扩展至多学科领域 - 腾讯与苏州大学团队提出RLVR框架 将强化学习训练从数学/代码扩展到医学、化学、法律、心理学、经济学等多学科领域 [3][4] - 传统基于二元规则的奖励在结构化数据领域有效 但难以适应非结构化学科 RLVR采用基于生成模型的软奖励 显著提升泛化能力和稳健性 [4][18] - 开源7B参数奖励模型及多学科数据集 促进相关研究发展 [5] 技术实现路径 - 发现大语言模型对客观参考答案的二元判断具有高度一致性 可直接作为验证器使用 无需为每个领域单独训练大规模奖励模型 [7][8] - 通过72B参数的Qwen2 5-Instruct蒸馏出7B奖励模型 训练过程无需领域标注 完全依赖在线探索数据 [9] - 引入基于置信度的软评分机制 相比二元硬标签(0/1)能更灵活处理复杂判断场景 [9][18] 实验验证结果 - 在6000个跨学科问题测试中 RM-7B模型在自由形式答案任务表现最优 数学领域平均得分62 5(软奖励) 多学科平均31 2 [14][15] - 软奖励在多学科任务中全面优于二元奖励 如社会科学领域得分提升至32 8(软) vs 29 1(二元) [15] - 数据量扩展性验证显示 RM-7B在100k数据规模时数学得分达65 0 多学科35 0 显著优于基于规则的方法(51 7和16 9) [16] 方法论创新与局限 - 突破传统强化学习依赖结构化数据的限制 实现非标准化参考答案的语义等价性评估 [17] - 未使用思维链推理(CoT) 对中间步骤奖励分配机制仍存研究空间 [16] - 不设格式约束降低数据标准化成本 但格式相关奖励的作用需进一步验证 [17]