核心观点 - 提出单阶段监督-强化微调方法SRFT,通过基于熵的动态加权机制将监督微调(SFT)和强化学习(RL)结合,提升大语言模型(LLM)推理性能[1][3] - SRFT在5项数学推理任务中实现59.1%平均准确率,较zero-RL基线提升9.0%,在分布外任务上平均准确率达62.5%,提升10.9%[4][47] - 相比传统两阶段SFT→RL方法,SRFT训练效率提升2.28倍,实现更稳定的收敛和更优的泛化能力[21][48] 方法设计 - 采用熵感知自适应权重机制动态平衡SFT和RL的贡献:高熵时降低SFT权重防止专家数据过度干扰,高熵时增加RL正样本权重促进熵稳定[29][44] - 双重策略设计:SFT组件实现粗粒度行为策略逼近,异策略RL组件利用演示数据进行细粒度优化[23][24][26] - 统一损失函数集成四个组件:演示数据SFT损失、演示数据RL损失、自探索正样本目标、自探索负样本目标[39][41] 性能对比 - 在AIME24等5个数学基准上,SRFT以59.5%平均准确率超越SFT(54.3%)和最佳zero-RL方法(50.1%)[43] - 在ARC-C等3个非数学基准上,SRFT以62.5%平均分领先SFT→RL(54.6%)和LUFFY(57.8%)等组合方法[43][47] - 响应长度分析显示SRFT能生成更详细的推理过程,而纯RL倾向于简洁输出[48] 训练动态 - 可视化显示SFT使模型概率空间移动最远,RL需将其拉回最优区域,而SRFT路径更直接高效[15] - 熵变化曲线表明SRFT维持更稳定的熵水平,避免RL导致的过早收敛,保留探索能力[20][48] - 重要性采样和分布不匹配缓解策略确保演示数据与当前策略的协同优化[31][32] 技术突破 - 首次实现单阶段协同学习:同步利用专家演示数据和模型自探索试错数据,解决知识遗忘问题[3][23] - 理论揭示SFT通过全局调整token分布(50%以上token受影响)类似"大锤",RL仅针对性调整2%token类似"手术刀"[9][10] - 提出新型训练轨迹可视化方法,以teacher forcing距离量化模型在概率空间的移动[14]
同时监督和强化的单阶段大模型微调,告别“先背书再刷题”,推理泛化双提升|中科院&美团等
量子位·2025-07-02 10:02