推理token减少46%！Meta新方法缩短思维链，告别重复推导

文章核心观点 - Meta、Mila-Quebec AI Institute、蒙特利尔大学和普林斯顿大学联合提出“元认知复用”机制，旨在解决大模型在复杂任务推理中重复步骤导致思维链过长的问题 [1] - 该机制让模型回顾并总结解题思路，将常用推理套路提炼为简洁的“行为”并存储于“行为手册”中，供后续类似问题直接调用，从而提升推理效率 [2] - 实验表明，该机制在保持准确率不变的前提下，最多可减少46%的推理token使用量，在数学基准测试中实现了显著优化 [3] 元认知复用机制的原理与构建 - 核心问题是大型语言模型采用思维链解决复杂任务时，每次遇到新问题都需重复推导通用子步骤，导致token用量膨胀、推理延迟增加并占用上下文窗口 [6][7] - 现有记忆系统（如RAG）仅存储陈述性知识，缺乏对“如何思考”的程序性知识复用机制，无法解决重复推理的低效问题 [7] - 元认知复用机制让模型先尝试解决问题，随后回顾整个推理过程，识别可复用的步骤并将其转化为一组标准化的“行为”——即带有规范名称的简短可执行指令 [8] - 这些“行为”被收录进可检索的“行为手册”，既能在测试阶段通过上下文提示直接调用，也可通过监督微调内化为模型的固有能力 [9] - “行为”构建流程中，模型扮演三种角色：元认知策略器（负责从自身推理轨迹中提取行为）、教师（负责生成监督微调训练数据）、学生（其推理过程可通过行为辅助） [11][13] - 具体提取步骤：元认知策略器首先生成包含推理轨迹的解决方案；随后将问题-解答对再次输入以生成反思，评估逻辑与正确性并提炼新行为；最后通过查询将问题、解答和反思转化为“行为条目”加入手册 [14][15] 机制的应用场景与实验效果 - 行为条件推理（BCI）：在MATH和AIME-24/25数据集上测试，使用DeepSeek-R1-Distill-Llama-70B和Qwen3-32B作为学生模型，该方法能在使用更少token的情况下达到与基线相当或更优的性能 [16][17][19] - 行为引导的自我改进：让R1-Llama-70B模型对自身的初步推理轨迹进行批判并修正，实现自我改进，即使不更新参数，也能借助过往提取的行为模式优化推理效果，相比基线方法可将准确率最多提升10% [21] - 行为条件监督微调（BC-SFT）：旨在将高质量行为融入模型参数，使用R1-Llama-70B作为元认知策略器和教师模型，对Qwen2.5-14B等多款学生模型进行微调 [23] - BC-SFT能更有效地将不具备推理能力的模型转化为具备推理能力的模型，与常规监督微调相比，不仅在token使用上更高效，且几乎在所有情况下准确率都高于基线模型 [24][25]