首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
量子位·2025-06-02 12:13
BARL团队 投稿 量子位 | 公众号 QbitAI 推理模型常常表现出类似自我反思的行为,但问题是—— 这些行为是否真的能有效探索新策略呢? 对此,西北大学与Google、谷歌DeepMind团队质疑了传统强化学习与反思的关系,并提出了贝叶斯自适应的强化学习方法, 首次解释了为 什么、如何、以及何时应该反思并探索新策略 。 通过对比分别使用传统强化学习和新方法训练的模型,研究人员发现: 在完成"模型需要在3步内输出三个连续相同字符"这一合成任务中,传统RL往往一条路走到黑, 而新方法懂得排除无效假设,适时切换新策 略。 并且在数学推理任务中, 新方法在大部分基准和模型上都取得了更高的准确率,同时为解出题目所耗费的token数量更少。 更有意思的是,团队发现反思次数并非决定性能的唯一因素,一些基础模型往往出现很多徒劳的反思,并没有带来实质的信息增益。 下面详细展开。 贝叶斯自适应强化学习激发反思性探索 直观来说,测试时试错的步骤只有当 能带来信息增益 的情况下才有益,然而人们并没有在RL训练中告诉模型试错和反思带来的信息增益。 为了回答上述问题,研究者研究了与传统RL不同的贝叶斯自适应RL框架,简称 BARL ...