Workflow
GradLoc
icon
搜索文档
「上下文学习」之后,腾讯混元第二篇公开研究:精准定位RLVR训练崩溃的“罪魁祸首”Token
机器之心· 2026-02-14 12:54
文章核心观点 - 腾讯混元团队发布了一项针对大模型强化学习后训练阶段工程挑战的研究,重点推出了名为“异常梯度定位器”的基础设施工具,旨在将训练调优从依赖直觉的“玄学”转变为基于数据证据的“科学” [2][3][7] - 该工具能够将训练崩溃时出现的全局梯度突刺问题,精准定位到导致问题的具体词元,从而系统性解决强化学习价值排名训练中的不稳定问题,降低工程壁垒 [2][8] - 公司认为,通过提供此类高可观测性的基础设施工具,可以构建一个由工具指导算法研发的协同范式,为整个社区带来确定性的效率复利,并推动对训练动态底层原理的探索 [6][32][36] 大模型强化学习的工程挑战与现状 - 2025年大模型竞争的主战场已从预训练转向后训练阶段,其中利用可验证反馈信号的强化学习价值排名是实现推理能力跃升的关键,但其落地面临极高的工程门槛 [5] - 大规模强化学习价值排名训练为了追求效率引入了大量近似计算,使其演变成一个高噪声的复杂动态系统,数据分布与模型参数互为因果,微小的误差可能在迭代中被放大,形成了难以逾越的“分析壁垒” [5] - 目前行业缺乏有效的微观观测工具来剖析这一复杂系统,导致大量优秀的底层机理研究设想因无法定位问题根源而被迫搁置 [5] 异常梯度定位器的核心价值与原理 - 异常梯度定位器旨在解决训练崩溃排查的“黑盒”问题,它将排查粒度从全局监控指标推进到微观层面,能够将全局梯度突刺定位到具体的异常词元 [8] - 该工具通过深度适配分布式计算框架并引入二分搜索策略,将异常排查的复杂度从线性降低至对数级,从而实现了从包含数千万个词元的大批次中高效定位异常词元 [14] - 工具采用了改进的深度优先搜索机制和基于梯度向量统计特性的自适应阈值,能够在几乎不增加额外耗时的情况下定位多个异常词元,并有效避免漏检和误检 [16] - 尽管在触发时会使异常训练步的耗时增加1-3倍,但由于其“按需启动”的特性,在长周期训练中摊销后的额外开销微乎其微 [16] - 理论分析表明,大语言模型极高的参数维度有效保证了该工具在海量数据中定位单个异常词元的成功率 [16] 基于异常梯度定位器的系统性问题排查案例 - 在第一阶段,工具将梯度突刺定位到两类重要性采样比率异常,验证了“训练-推理不一致”的社区猜想,并指导引入了词元级裁剪和序列级裁剪作为互补的修正手段 [22][24] - 在第二阶段,工具发现了“层间梯度异质性”现象,即模型的某些层梯度范数突然爆炸,而其他层保持稳定,同时爆炸层内部所有子模块的梯度呈现高度同步的突刺 [27] - 这一发现揭示了传统全局梯度裁剪的缺陷:当层间异质性发生时,健康层的梯度会被异常层主导并压缩至接近0,从而极大损伤优化效果 [28] - 在第三阶段,基于上述发现针对性提出了分层梯度裁剪,为每一层动态设置独立的裁剪阈值,实验表明其在已有修正基础上进一步显著提升了训练稳定性 [29] 工具带来的范式转变与未来展望 - 异常梯度定位器使得异常排查的时间成本从“周”级别降低到了“小时”级别,这种工程上的确定性将为算法迭代带来巨大的效率复利 [33] - 公司希望持续迭代并开源此类白盒分析工具,让“异常梯度定位”成为像“查看损失曲线”一样触手可及的基础能力,从而降低整个社区的工程门槛 [34][35] - 工具所揭示的“层间梯度异质性”现象,作为有确凿数据支撑的新发现,可能指向了大模型训练中尚未被充分理解的底层物理与统计机理 [37] - 未来,深入研究这些底层机理将至关重要,有望指导行业超越单纯的“梯度裁剪”,从数学原理层面设计出更鲁棒、更高效的优化算法 [37]