文章核心观点 - 强化学习是推动机器获得推理与语言能力的关键驱动力 [2] - 过程监督强化学习通过监督推理过程而非仅看结果来提升模型推理能力,但存在探索效率低和训练成本高的问题 [3][7] - 清华与快手研究团队提出的AttnRL框架,通过引入注意力机制作为探索指南针,显著提升了过程监督强化学习的效率与性能 [4][9] 过程监督强化学习的现实困境 - 传统结果监督方法对所有token赋予相同奖励,忽略推理过程中的细粒度质量 [7] - 传统过程监督方法在分支位置选择和采样策略上效率低下,导致训练成本高昂 [7] - 具体瓶颈包括分支策略粗糙、采样效率低下以及训练流程冗余 [10] AttnRL框架的核心创新:注意力引导探索 - 关键洞察是模型推理过程中注意力得分高的步骤对应关键的思考时刻,如规划、自我验证或转折点 [12] - 提出基于注意力的树分支策略,通过计算前向上下文影响力分数,仅在影响后续推理程度最高的关键位置建立分支 [13] - 实验证明破坏高注意力步骤会显著降低模型解题准确率,验证了其作为关键节点的有效性 [17] AttnRL的自适应采样机制 - 引入难度感知探索,根据FCI分数过滤简单问题,对困难问题扩展更多推理树进行探索 [22] - 采用动态批次调整,根据有效样本数动态调整批次大小,确保所有样本的梯度均有贡献 [22] - 设计一步离策略训练流程,将初始采样与蒙特卡洛采样交错执行,每步训练只需生成一次样本,大幅降低采样成本 [23] 实验结果:性能与效率双赢 - 在六个数学推理基准上,AttnRL对1.5B和7B基座模型均实现稳定提升,平均准确率分别达到57.2%和68.7% [27][28] - 相比DeepScaleR-Preview-1.5B需要1750步和24K上下文,AttnRL仅需500步和8K上下文即实现更优结果 [28] - 基于注意力的分支方法在全对比例、全错比例、有效比例等统计上全面优于熵分支方法 [29] - 自适应采样确保每批次样本均有效,AttnRL在500步训练中生成56亿有效token,性能达57.2,优于GRPO和TreeRL等方法 [32] 未来展望 - AttnRL将注意力分数首次用于过程监督强化学习的探索决策,为提升大模型可解释性和强化学习研究开辟了新方向 [34] - 该方法表明效率与智能并非对立,可通过更高效的探索实现共赢 [34]
清华、快手提出AttnRL:让大模型用「注意力」探索
机器之心·2025-10-21 17:32