Workflow
AttnRL
icon
搜索文档
清华、快手提出AttnRL:让大模型用「注意力」探索
机器之心· 2025-10-21 17:32
从 AlphaGo 战胜人类棋手,到 GPT 系列展现出惊人的推理与语言能力,强化学习(Reinforcement Learning, RL)一直是让机器 「 学会思考 」 的关键驱动力。 然而,在让大模型真正掌握「推理能力」的道路上,探索效率仍是一道难以逾越的鸿沟。 当下最前沿的强化学习范式之一 ——过程监督强化学习(Process-Supervised RL, PSRL),让模型 不再只看「结果对不对」,而是学会在「推理过程」中不断修正自己。 然而,传统的过程监督强化学习方法在探索效率和训练成本上仍存在明显瓶颈。 为此, 来自清华和快手的研究团队 提出了一种新框架 AttnRL ,通过引入注意力机制作为探索的 「 指南针 」 ,显著提升了过程监督强化学习的效率与性能。 论文标题: Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models 论文链接: http s ://arxiv.org/abs/2509.26628 GitHub: https://github.com/RyanL ...