强化学习微调（RLFT） - 财报，业绩电话会，研报，新闻 - Reportify

强化学习微调（RLFT）

搜索文档

谷歌DeepMind：大模型也很任性，知道最优路径偏要撞南墙

机器之心· 2025-05-05 11:40

核心观点 - 研究系统分析了LLM在决策场景中的三种常见失败模式：贪婪性、频率偏差和知-行差距 [2][4] - 提出通过强化学习微调(RLFT)自动生成的思维链(CoT)推理过程，实验证明该方法能有效提升LLM决策能力 [2][8] - RLFT通过环境交互奖励优化CoT推理，使模型倾向于选择高奖励动作，显著改善探索行为和知-行差距 [8][22] 失败模式分析 - **贪婪性**：LLM过早锁定局部最优动作，在10臂老虎机实验中27B模型仅覆盖45%动作空间 [15][17] - **频率偏差**：2B模型机械复制高频动作（熵值降低50%），27B模型虽减弱此现象但仍保持贪婪 [5][18] - **知-行差距**：87%推理正确但58%情况仍选择贪婪动作，与最优动作选择率(21%)形成显著落差 [20] 模型规模差异 - 小模型(2B)受频率偏差影响严重，重复动作选择率随上下文出现次数线性增长 [5][18] - 大模型(27B)能减弱频率偏差但维持贪婪策略，在20臂老虎机中动作覆盖率停滞在55% [6][15] RLFT方法细节 - 采用裁剪目标函数和KL约束进行微调，数学表达式见公式(2) [11] - 输入包含指令文本和最近C步的状态-动作-奖励轨迹 [10] - 测试环境包括多臂老虎机(MAB)和井字棋游戏 [13] 实验结果 - RLFT使2B/9B模型遗憾值降低30%，优于随机基线 [22] - 微调后模型探索率提升，10步后动作覆盖率突破60% [17][22] - 知-行差距缩小，正确推理对应最优动作执行率从21%提升至40% [20][22]

强化学习微调（RLFT）

知 - 行差距

大语言模型（LLMs）

思维链（Chain-of-Thought

强化学习微调（RLFT）

知 - 行差距

大语言模型（LLMs）

思维链（Chain-of-Thought