研究核心观点 - 研究团队揭示了大模型强化学习训练中的一个关键现象:尽管强化学习能带来巨大的性能提升,但其参数更新却极为稀疏,这背后是由一种固定的模型条件优化偏差机制所驱动[1][3] - 团队提出了“三门理论”来解释RLVR训练的内在机制,阐明参数更新如何被约束、引导并最终定位到特定的参数区域[3][7] 参数更新稀疏性发现 - 对包括Qwen系列和DeepSeek-R1-Distill-Qwen在内的多个开源模型的分析显示,经过超过3000步长时间RL训练后,RL参数更新的稀疏度高达36%到92%,而监督微调的稀疏度仅为0.6%到18.8%,相差一个数量级[5][6] - 具体数据显示,Qwen3-30B-A3B模型经过GRPO算法在数学数据上训练后,稀疏度达到91.7%;而Qwen3-8B-Base模型的SFT稀疏度仅为0.6%[6] 三门理论机制解析 - 第一门KL锚定机制通过策略梯度更新的KL界限确保每步相对于当前策略的漂移很小,限制了参数的移动范围,即使在无显式KL正则项的DAPO算法中,比例裁剪技巧仍会施加O(ε²)的KL界限[8] - 第二门模型几何机制指出预训练模型具有高度结构化的几何特性,在KL约束下,RL更新倾向于保持模型的原始权重结构,自然偏向于优化景观中的低曲率方向[9] - 第三门精度过滤机制揭示bfloat16的有限精度只有7位尾数,小于单位最低位阈值的变化无法表示,导致在RL不愿施加大改变区域的微小更新被隐藏,表现为稀疏性[11] 实验验证与发现 - 通过奇异值分解分析发现,RL更新与主成分权重的重叠度始终低于随机水平,表明RL强烈倾向于避开这些权重,而与低幅度权重显示出超随机的重叠[11] - 因果性验证实验通过正交旋转和头部置换故意扰乱模型几何结构,结果显示在被干预的层中更新重叠度降至随机水平,证明预训练模型的几何结构是优化偏差的来源[13] - 光谱分析表明RLVR检查点在顶部主成分内表现出明显稳定的谱,跨层的主子空间旋转一致较小,谱漂移最小,奇异值曲线几乎与基础模型相同[14] 对参数高效微调方法的启示 - 研究发现许多SFT时代的参数高效微调方法在RLVR中迁移效果很差,仅更新主成分权重会产生最差的优化轨迹,KL曲线上升缓慢,显示过度干预和退化的训练动态[17] - 对于LoRA变体,主成分定向的PiSSA在用于匹配全参数性能的较高学习率下经常变得不稳定并提前崩溃,因为强制沿主方向更新会触及RLVR倾向于避免的高曲率区域[17]
这些大神在Meta的论文看一篇少一篇了