强化学习提升大模型推理能力的机制 - 强化学习能提升大语言模型的复杂推理能力,但其内在机制此前不明朗 [2][5] - 研究首次揭示大模型通过类人方式学会推理,即将高层策略规划与底层程序执行相分离 [3][12] - 核心机制是模型先固化基础执行能力,再自主发展出策略规划能力 [13] 两阶段学习动力学 - 第一阶段为底层技能巩固,模型专注于掌握低级技能,如算术计算和格式规范,表现为执行token的熵值急剧下降 [14][23][24] - 第二阶段为高层规划探索,学习重心转向高级策略规划,表现为规划token的语义多样性提升,并与推理能力提升及解决方案链条延长直接相关 [14][17][28] - 对于强模型或易学习数据,第一阶段可能短暂甚至不存在 [27] 对特定现象的解释 - “顿悟时刻”是模型发现、掌握并强化某种高层策略(如自我反思)时的行为特征信号,并非偶然灵光 [33][34] - “长度缩放”现象源于更好的规划,模型探索到更丰富精细的策略后自然生成更长、更有结构的推理链条,导致输出越长越准 [35][37][38] - 整体token级熵值下降是因大量执行token变得高度可预测,而规划token的语义熵上升才真实反映策略探索进展 [39][40] 新算法HICRA的性能优势 - 针对现有RL方法对所有token无差别优化导致学习信号稀释的问题,提出了分层感知信用分配机制HICRA,其核心是聚焦稀疏但高价值的规划token的学习权重 [41][42][44] - 在多项数学推理基准测试中,HICRA持续超越GRPO基线方法,例如在Qwen3-4B-Instruct模型上,AIME24任务得分从GRPO的68.5提升至HICRA的73.1,提升5.4个百分点 [45][46] - 在多模态推理基准测试中,HICRA也表现优异,如在MiMO-VL模型上,Math Vista任务得分从GRPO的73.7提升至HICRA的80.7,提升7.0个百分点 [47] 关键指标与错误分析 - 语义熵是衡量策略探索的有效指标,能避免token级熵值和Pass@K指标的缺陷,清晰显示策略多样性并与性能提升正相关 [56][58][59] - 强化学习的主要优势在于修正高层策略失误(如逻辑缺陷、计划错误),而非细微的计算错误 [50][51] - 大多数高熵token并非规划token,仅依靠熵值识别具有精确语义功能的token存在局限性 [64][65]
不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
 具身智能之心·2025-10-10 08:02