Workflow
JustRL
icon
搜索文档
清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能
机器之心· 2025-11-13 07:51
研究背景与行业现状 - 2025年初DeepSeek-R1开源后,如何用强化学习训练1.5B级别的小型数学推理模型成为热门研究方向,该领域经历了快速的技术演进[6] - 行业技术发展路径从早期的超参数调优和长度控制,演进到多阶段渐进训练、课程学习以及将rollout数量提升到512次的暴力探索方法[6] - 近期工作普遍采用动态采样、KL重置、自适应惩罚、长度控制等复杂稳定技术和优化技巧,导致整个训练流程变得越来越复杂[7] 清华团队JustRL方法创新 - 采用极简训练配方:使用标准GRPO算法、单阶段训练、固定超参数、常规数学问题集,避免数据筛选和动态采样等复杂技术[11] - 同一套超参数在两个不同起点模型上均有效:弱基座DeepSeek-R1-Distill-Qwen-1.5B和强基座OpenMath-Nemotron-1.5B[11] - 在9个数学推理基准上的全面评测显示,JustRL达到了1.5B模型的最高水平[11] 性能与效率表现 - JustRL-DeepSeek-1.5B在9项基准上平均准确率达到54.87%,超越采用9阶段训练的ProRL-V2的53.08%[13][14] - 计算效率显著提升:总token预算约为1.4E+11,仅为ProRL-V2的一半,为BroRL的五分之一[14] - JustRL-Nemotron-1.5B平均准确率达到64.32%,略微超过使用课程学习的QuestA的63.81%,且不需要额外的数据工程[14] 训练稳定性发现 - 4000步RL训练过程异常平稳:策略熵在1.2-1.4范围内健康震荡,平均奖励从-0.6单调上升到+0.4,响应长度自然压缩到4000-5000 tokens[17] - 训练在32张A800-80GB GPU上进行约15天,工程复杂度和计算开销显著低于多阶段训练方法[15] - 与现有工作报告的训练困难形成鲜明对比,表明在足够简单的配置和充分训练规模下,稳定性问题可能不易发生[19] 技术优化实验启示 - 加入显式长度惩罚反而使性能从55%下降到50%,导致熵值从1.2-1.4降到0.4-0.6,探索空间被过早压缩[21] - 换用更宽松的验证器使性能继续下滑到45%,可能降低了学习信号的细粒度或消除了模型发展鲁棒推理的压力[21] - 消融实验显示技术差异在接近2000步尺度才开始显现,意味着小规模实验结论可能不适用于大规模扩展场景[24] 行业方法论启示 - 技术的价值高度依赖于baseline特性,在稳定baseline上某些"优化"可能适得其反[27] - 建立清晰的简单baseline能更准确地评估复杂技术的价值,应先验证简单方法的极限再决定是否需要复杂度[27] - 行业可能低估了简单方法在充分扩展下的潜力,奥卡姆剃刀原则"如无必要,勿增实体"具有重要参考价值[26][31]