Workflow
一阶近似
icon
搜索文档
LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开
机器之心· 2025-12-07 12:33
强化学习在大语言模型中的新公式化方法与稳定训练实践 - 阿里千问团队提出了一种针对大语言模型(LLM)的全新强化学习(RL)公式化方法,核心洞察是:为了优化序列级奖励的期望值,可以使用一个替代(surrogate)token级目标作为其一阶近似 [2] - 该方法从原理上解释了多种RL稳定训练技巧的有效性,包括重要性采样权重、剪切(Clipping)机制以及针对混合专家(MoE)模型的路由重放(Routing Replay)方法 [2] - 团队使用一个30B参数的MoE模型进行大量实验,总计耗费数十万GPU小时以验证理论并探索稳定训练实践 [4] 研究背景与核心问题 - 强化学习已成为提升大语言模型复杂推理与解题能力的关键技术范式,而稳定的训练过程对于成功扩展RL至关重要 [2] - 主流RL算法普遍存在“奖励在序列级、优化在token级”的不匹配问题,引发了对其理论健全性与训练稳定性的担忧 [2] - 在MoE模型的RL训练中,动态专家路由机制可能破坏token级重要性采样比的有效性,带来了新的挑战 [2] 核心理论框架 - 团队专注于序列级优化,即对整个模型生成的响应赋予一个标量奖励,而不采用基于价值函数的方法,因为构建通用、可扩展且可靠的价值模型极为困难 [6][7] - 直接优化期望序列级奖励非常困难,主要挑战在于训练与推理之间的数值差异,以及用于采样响应的rollout策略与需要优化的目标策略之间的偏差 [8][9] - 团队从序列级奖励期望出发,通过重要性采样进行等价变换,并引入一个替代的token级优化目标,其梯度形式即为带token级重要性采样权重的基本策略梯度算法(REINFORCE) [11][12] - 该token级目标被视为序列级目标的一阶近似,其成立的关键条件是目标策略与rollout策略必须足够接近 [13] 针对MoE模型的挑战与解决方案 - 对于MoE模型,专家路由与训练-推理差异、策略陈旧的紧密耦合,更容易导致基于一阶近似的token级替代优化目标失效 [15][16] - 团队提出Routing Replay方法以稳定MoE模型的RL训练,核心思想是在策略优化过程中固定路由到的专家,使其在优化行为上更接近稠密模型 [17] - Routing Replay有两种具体实现方式:Vanilla Routing Replay(R2)旨在减轻专家路由对策略陈旧的影响;Rollout Routing Replay(R3)旨在减轻专家路由对训练-推理差异的影响 [18][19] 实验结果与主要结论 - 团队在数学推理任务上进行了实验,构建了包含4096道题目的RL训练提示集,并在HMMT25、AIME25和AIME24基准上评测 [21] - 在on-policy训练中,带重要性采样校正的基本策略梯度算法(MiniRL)取得了最佳性能和最高训练稳定性 [10][22] - 在on-policy训练中,引入长度归一化会导致性能下降,因为其破坏了对真实序列级奖励的一阶近似;移除重要性采样校正则会导致训练迅速崩溃 [22] - 在引入off-policy更新以加速收敛时,必须同时使用Routing Replay与Clipping才能实现稳定训练,缺失任一项都会导致训练提前崩溃和峰值性能下降 [10][23] - 不同冷启动初始化方式的模型最终性能趋于一致,表明研究重点应更多放在RL方法本身,而非冷启动细节 [10][27] - 无论是on-policy还是off-policy,只要训练过程稳定,其峰值性能都高度一致,说明稳定的训练过程在成功扩展RL中起决定性作用 [27]