强化学习对语言模型能力的影响 - 学界长期争论RL是否能真正提升语言模型的推理能力,还是仅优化已有知识的调用效率 [1] - 过去研究多持悲观态度,认为RL收益有限且可能导致模型同质化 [1] - NVIDIA研究指出问题根源在于基础模型训练数据中数学/编程任务过度呈现,以及RL训练步数不足 [1] ProRL框架的核心创新 - 将RL训练步数从传统几百步大幅提升至2000步以上,释放小模型潜力 [3] - 采用多样化可验证奖励任务,涵盖数学/编程/科学问答/逻辑谜题等多领域数据 [5] - 引入GRPO+DAPO算法组合,通过解耦裁剪和动态采样提升训练效率 [7] - 采用KL正则化+周期性策略重置机制,有效打破训练停滞 [8] ProRL的技术突破表现 - 在逻辑谜题任务中实现pass@k 100%的突破性表现 [6] - 创造力指标(Creativity Index)显著提升,模型能生成全新解题路径 [6] - 数学任务性能提升14.7%,代码生成领先同类1.5B模型6.5%,逻辑推理准确率提升54.8% [12] - 在基础模型表现较弱的任务上,RL展现出最强的"推理边界扩展"能力 [13] Nemotron-1.5B模型的性能优势 - 在AIME24/AIME25/AMC Math等数学测试中,1.5B模型性能接近7B大模型 [10] - 在apps/CC/cf等编程任务中表现优于同类1.5B模型 [10] - 在GPOA/IFEval/Reasoning等推理任务中大幅超越7B模型,部分指标提升超过50% [10] 研究结论与行业意义 - 长期稳定的RL训练能真正扩展模型能力边界,不仅是策略优化 [15] - 小模型通过ProRL可在复杂推理任务中超越大模型,不依赖更多数据或更大参数量 [16] - 该方法为开发高推理能力、低部署成本的小语言模型提供了新路径 [17]
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限