文章核心观点 - Meta、Mila-Quebec AI Institute、蒙特利尔大学和普林斯顿大学联合提出“元认知复用”机制,旨在解决大模型在复杂任务推理中重复步骤导致思维链过长的问题 [1] - 该机制让模型回顾并总结解题思路,将常用推理套路提炼为简洁的“行为”并存储于“行为手册”中,供后续类似问题直接调用,从而提升推理效率 [2] - 实验表明,该机制在保持准确率不变的前提下,最多可减少46%的推理token使用量,在数学基准测试中实现了显著优化 [3] 元认知复用机制的原理与构建 - 核心问题是大型语言模型采用思维链解决复杂任务时,每次遇到新问题都需重复推导通用子步骤,导致token用量膨胀、推理延迟增加并占用上下文窗口 [6][7] - 现有记忆系统(如RAG)仅存储陈述性知识,缺乏对“如何思考”的程序性知识复用机制,无法解决重复推理的低效问题 [7] - 元认知复用机制让模型先尝试解决问题,随后回顾整个推理过程,识别可复用的步骤并将其转化为一组标准化的“行为”——即带有规范名称的简短可执行指令 [8] - 这些“行为”被收录进可检索的“行为手册”,既能在测试阶段通过上下文提示直接调用,也可通过监督微调内化为模型的固有能力 [9] - “行为”构建流程中,模型扮演三种角色:元认知策略器(负责从自身推理轨迹中提取行为)、教师(负责生成监督微调训练数据)、学生(其推理过程可通过行为辅助) [11][13] - 具体提取步骤:元认知策略器首先生成包含推理轨迹的解决方案;随后将问题-解答对再次输入以生成反思,评估逻辑与正确性并提炼新行为;最后通过查询将问题、解答和反思转化为“行为条目”加入手册 [14][15] 机制的应用场景与实验效果 - 行为条件推理(BCI):在MATH和AIME-24/25数据集上测试,使用DeepSeek-R1-Distill-Llama-70B和Qwen3-32B作为学生模型,该方法能在使用更少token的情况下达到与基线相当或更优的性能 [16][17][19] - 行为引导的自我改进:让R1-Llama-70B模型对自身的初步推理轨迹进行批判并修正,实现自我改进,即使不更新参数,也能借助过往提取的行为模式优化推理效果,相比基线方法可将准确率最多提升10% [21] - 行为条件监督微调(BC-SFT):旨在将高质量行为融入模型参数,使用R1-Llama-70B作为元认知策略器和教师模型,对Qwen2.5-14B等多款学生模型进行微调 [23] - BC-SFT能更有效地将不具备推理能力的模型转化为具备推理能力的模型,与常规监督微调相比,不仅在token使用上更高效,且几乎在所有情况下准确率都高于基线模型 [24][25]
推理token减少46%!Meta新方法缩短思维链,告别重复推导