二元奖励 - 财报，业绩电话会，研报，新闻 - Reportify

二元奖励

搜索文档

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

量子位· 2025-04-02 15:40

大模型强化学习扩展至多学科领域 - 腾讯与苏州大学团队提出RLVR框架将强化学习训练从数学/代码扩展到医学、化学、法律、心理学、经济学等多学科领域 [3][4] - 传统基于二元规则的奖励在结构化数据领域有效但难以适应非结构化学科 RLVR采用基于生成模型的软奖励显著提升泛化能力和稳健性 [4][18] - 开源7B参数奖励模型及多学科数据集促进相关研究发展 [5] 技术实现路径 - 发现大语言模型对客观参考答案的二元判断具有高度一致性可直接作为验证器使用无需为每个领域单独训练大规模奖励模型 [7][8] - 通过72B参数的Qwen2 5-Instruct蒸馏出7B奖励模型训练过程无需领域标注完全依赖在线探索数据 [9] - 引入基于置信度的软评分机制相比二元硬标签(0/1)能更灵活处理复杂判断场景 [9][18] 实验验证结果 - 在6000个跨学科问题测试中 RM-7B模型在自由形式答案任务表现最优数学领域平均得分62 5(软奖励) 多学科平均31 2 [14][15] - 软奖励在多学科任务中全面优于二元奖励如社会科学领域得分提升至32 8(软) vs 29 1(二元) [15] - 数据量扩展性验证显示 RM-7B在100k数据规模时数学得分达65 0 多学科35 0 显著优于基于规则的方法(51 7和16 9) [16] 方法论创新与局限 - 突破传统强化学习依赖结构化数据的限制实现非标准化参考答案的语义等价性评估 [17] - 未使用思维链推理(CoT) 对中间步骤奖励分配机制仍存研究空间 [16] - 不设格式约束降低数据标准化成本但格式相关奖励的作用需进一步验证 [17]

腾讯控股(HK:00700)

大模型强化学习

Artificial Intelligence

RM - 7B奖励模型

大模型强化学习

Artificial Intelligence

RM - 7B奖励模型