二元奖励

搜索文档
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
量子位· 2025-04-02 15:40
大模型强化学习扩展至多学科领域 - 腾讯与苏州大学团队提出RLVR框架 将强化学习训练从数学/代码扩展到医学、化学、法律、心理学、经济学等多学科领域 [3][4] - 传统基于二元规则的奖励在结构化数据领域有效 但难以适应非结构化学科 RLVR采用基于生成模型的软奖励 显著提升泛化能力和稳健性 [4][18] - 开源7B参数奖励模型及多学科数据集 促进相关研究发展 [5] 技术实现路径 - 发现大语言模型对客观参考答案的二元判断具有高度一致性 可直接作为验证器使用 无需为每个领域单独训练大规模奖励模型 [7][8] - 通过72B参数的Qwen2 5-Instruct蒸馏出7B奖励模型 训练过程无需领域标注 完全依赖在线探索数据 [9] - 引入基于置信度的软评分机制 相比二元硬标签(0/1)能更灵活处理复杂判断场景 [9][18] 实验验证结果 - 在6000个跨学科问题测试中 RM-7B模型在自由形式答案任务表现最优 数学领域平均得分62 5(软奖励) 多学科平均31 2 [14][15] - 软奖励在多学科任务中全面优于二元奖励 如社会科学领域得分提升至32 8(软) vs 29 1(二元) [15] - 数据量扩展性验证显示 RM-7B在100k数据规模时数学得分达65 0 多学科35 0 显著优于基于规则的方法(51 7和16 9) [16] 方法论创新与局限 - 突破传统强化学习依赖结构化数据的限制 实现非标准化参考答案的语义等价性评估 [17] - 未使用思维链推理(CoT) 对中间步骤奖励分配机制仍存研究空间 [16] - 不设格式约束降低数据标准化成本 但格式相关奖励的作用需进一步验证 [17]