研究背景与核心问题 - 基于可验证奖励的强化学习(RLVR)能提升大语言模型(LLM)的思维链决策能力,但对多模态大模型(VLM)智能体的目标导向动作推理任务,强化学习在复杂问题上不能很好提升决策能力,甚至导致思维过程退化[2] - 来自清华、北大和腾讯的研究团队将VLM智能体在RL训练中出现的思维过程退化现象称为“思维崩塌”,表现为智能体思维丧失多样性,并输出不一致和不完整的思路[2] - 思维崩塌现象的核心原因是强化学习的训练机制:环境提供的奖励完全由模型最终的动作决定,而比动作输出更长且更基础的思维过程缺少评估和监督,只能依赖结果奖励间接引导[7][11] “思维崩塌”现象的具体表现与影响 - 在RL训练中,VLM智能体的思维链过程失去多样性,对于不同的视觉和文本输入给出相同的思路[11] - 模型输出的思路不正确、不一致、不完整,虽在输出思路,但已丧失思考能力[11] - 思维能力的丧失极大限制了模型的决策能力,难以释放模型潜力[11] - 实验中发现,更大的模型、更长的训练时间也均展示出思维崩塌的情况[7] 现有解决方案的局限性 - 常见的过程奖励模型(PRMs)需要精细标注的多模态数据训练,昂贵且费力,且固定数据集上的训练容易产生偏差,不适用于动态的交互式环境[9] - 使用VLM进行打分的VLM-as-a-judge方法效果不佳,因为简单的数值奖励难以提供充足的信息量和有效的指导,尤其考虑到大模型更强的奖励破解能力[9] - 在模型基础能力较差的情况下,缺少正向激励也容易导致悲观探索的问题[9] 提出的新框架:思维引导的强化学习 - 研究团队提出思维引导的强化学习(Guided Thought Reinforcement, GTR)框架,通过自动化修正器提供过程引导,在RL训练中实时优化模型的思路,且无需依赖人类的精细标注[4] - GTR利用一个外部的VLM模型作为修正器,在强化学习的每一步,先对智能体思路中识别和推理的正确性进行评估,如果发现不正确或不一致,则利用智能体的状态输入进行修正[13] - 通过在常规的PPO过程中加入一个针对思路token的SFT loss,将模型的思路与修正器给出的正确结果对齐,形成一个“思维 + 动作”、“SFT+PPO”的联合训练框架[13] - 框架还通过为智能体增加格式奖励和重复惩罚、为修正器模型提供工具调用弥补专业知识等方法,进一步提升数据质量[13] GTR框架的实验效果 - 在gym_cards中最困难的24点纸牌游戏中,基于LLaVA-7B的GTR智能体在15k的训练步数内达到了最高17.5%的成功率,大幅超过了仅包含强化学习的RL4VLM(2.5%)和仅包含思路引导的SFT-only(11.0%)两个基线方法,甚至突破了其修正器模型GPT-4o的水平(13.5%)[16] - 在更简单的、思维崩塌现象不显著的另外三个游戏中,GTR相比于RL4VLM也能取得突破,并达到10倍其规模的预训练模型的能力水平[17] - 在具身智能任务ALFWorld中,为了模拟真实环境,实验中去掉了环境提供的文本观察,模型仅能依赖视觉信息进行决策。GTR(无文本观察)的成功率达到17.8%,显著高于RL4VLM(无文本观察)的5.4%,并接近有文本观察的版本(21.0%),有效避免了思维崩塌带来的性能下降[19][20] - 消融实验证明了训练全过程思维引导的重要性、工具调用提升修正器专业知识的必要性和DAgger缓解在线训练分布偏移的有效性[21] 研究意义与行业启示 - 本项研究揭示了多模态大模型智能体强化学习训练中,思维崩塌现象对训练稳定性和性能提升的限制[23] - 通过修正器模型进行思路修改,GTR在无需数据标注的条件下实现了实时自动化的思维过程监督,使过程引导与强化学习有机结合,互为补充[23] - 这一创新性的分析和解决方案能够为复杂长时任务中大模型智能体的训练提供更多的启发和可能性[24]
有效思考激发多模态智能体决策潜力!清华&北大&腾讯联合提出GTR训练新框架
机器之心·2026-03-13 12:00