Workflow
可验证强化学习(RLVR)
icon
搜索文档
SimKO:缓解RLVR训练中的概率过度集中,优化pass@K性能
机器之心· 2025-11-08 12:02
这一现象表明, 虽然模型在「利用」(Exploitation)单一正确路径的能力有所增强,但牺牲了对多样化正确解的「探索」(Exploration)能力。 针对这一问题,研究团队从 「模型预测下一个词的概率分布」 这一新视角出发,深入研究了「探索」能力下降的内在机制。大量实验发现,经过现有 RLVR 算法 训练后的模型 ,多数存在概率集中于单一推理路径的问题。 受该现象启发,研究团队提出一种简洁且高效的算法 —— SimKO (Simple Pass@K Optimization),显著优化了 pass@K(K=1 及 K>1)性能。 作者彭若天是西湖大学和浙江大学联培博士生,任毅是不列颠哥伦比亚大学博士,郁昼亮是香港中文大学博士生,刘威杨是香港中文大学计算机系助理教授,温 研东是西湖大学人工智能系助理教授 随着 Deepseek-R1,Kimi1.5 等模型展示了强化学习在提升大型语言模型复杂推理能力上的巨大潜力,使用可验证强化学习(RLVR)在数学、逻辑与编程等领域进 行训练提升模型性能受到了广泛关注。 然而,尽管现有 RLVR 方法在提升模型的 pass@1 性能(单次尝试正确的概率)方面取得了显著成果 ...
混合数学编程逻辑数据,一次性提升AI多领域强化学习能力 | 上海AI Lab
量子位· 2025-08-14 12:08
AI大模型多领域推理能力研究 核心观点 - AI大模型在数学、编程和逻辑推理等多领域协同训练中展现出显著性能提升,跨领域知识迁移和协同效应成为关键突破点 [1][3] - 三领域联合训练(Math+Code+Puzzle)实现整体平均性能56.57,优于任何双领域组合 [3][26][31] - 强化学习技术(RLVR)结合定制化奖励策略和课程学习等方法,可显著提升模型鲁棒性和泛化能力 [6][9][33][36] 多领域评估框架 - 构建涵盖数学(Math)、编程(Code)和逻辑谜题(Puzzle)三大类数据的评估体系,采用Qwen2.5-7B系列模型进行实验 [3][14] - 数据规模:数学领域含DeepScaleR(10k)和CountDown(10k),代码领域含CodeR1-12k(12k),谜题领域含KK(5.4k)和LPB(2.4k) [18] - 奖励机制设计采用二元0-1、比例0-1等差异化方案 [18][35] 单领域训练表现 - 数学领域:Base模型在CountDown任务准确率提升75个百分点,但过度优化可能削弱代码能力 [20] - 代码领域:Instruct模型展现更强跨域泛化能力,Base模型在域外任务普遍下降 [21] - 谜题领域:Instruct模型在KK数据集准确率达99.14,Zebra任务得分提升至36.20,且训练效果可迁移至数学任务 [22] 跨领域协同效应 - Math+Puzzle组合使数学任务表现提升至49.72(单领域47.48),Code任务在添加Puzzle或Math数据后均获提升 [25] - Puzzle+Code组合实现平均最大19.39提升,但Math+Puzzle会显著降低Code表现 [25] - 三领域联合训练避免性能塌陷,确保各任务均衡发展 [26][31] 关键技术发现 - Template一致性:Base模型使用匹配模板时平均性能达47.84,不匹配时CountDown准确率从19.36暴跌至0 [29][31] - 课程学习:Policy Refresh策略使模型在6PPL阶段达97.43准确率,最终达99.71 [33][36] - 奖励设计:二元奖励在简单任务(KK)最优,复杂任务(LPB)需格式奖励或重缩放奖励 [35][37] - 语言敏感性:中文训练模型性能低于英文训练模型 [13] 未来研究方向 - 建议拓展Science、General Reasoning等新领域数据分类,探索Llama、DeepSeek等模型适配性 [39] - 强调数据多样性对模型能力的根本性影响,需深入研究数据与RLVR的关联机制 [39]