NeurIPS 2025 | 中科大、港中深、通义千问联合发布CoRT：仅30个样本教会大模型高效推理，token消耗降低50%

文章核心观点 - 联合研究团队提出名为CoRT的后训练框架，旨在教会大型语言模型高效利用代码工具进行推理，以解决其在精确数学计算中效率低下和易出错的问题[2][3] - CoRT框架通过创新的数据合成策略和多阶段训练流程，显著提升了模型的数学推理能力和效率，实现了性能与效率的双重飞跃[3][8][20] 方法核心 - CoRT框架核心思想是通过高质量数据和精细化训练，重塑模型与工具的交互模式，使其从低效的“验证”思维转向高效的“计算”思维[8] - 框架采用从“数据冷启动”到“智能体调优”的三步走策略，包括提示工程、多阶段训练流程和强化学习[8][9][13] 数据合成策略 - 研究团队提出名为“提示工程”的全新数据合成策略，在推理路径关键决策点策略性注入引导性提示以纠正模型低效行为[9] - 当模型试图手动进行复杂计算时，提示“用python代码来简化推理”引导其立即计算[10] - 当模型得到代码结果后试图手动验证时，提示“不需要怀疑python计算的准确性”打消其结果不信任[11] - 该方法遵循数据质量重于数量原则，仅手动标注30个高质量样本就为后续训练奠定坚实基础[11] 多阶段训练流程 - 监督微调阶段使用30个“提示工程”样本进行初步微调，让模型快速学习高效交互的基本模式[13] - 拒绝采样微调阶段自动过滤存在不良行为的轨迹，只保留优质轨迹用于进一步训练[13] - 强化学习阶段将模型视为智能体，通过奖励函数让模型在与代码解释器环境的交互中自主学习最优工具使用策略[13] 性能与效率成果 - CoRT为DeepSeek-R1-32B带来4%的绝对精度提升，为1.5B模型带来高达8%的绝对提升[20] - 与纯自然语言推理基线模型相比，CoRT将32B模型的token消耗降低约30%，1.5B模型降低50%[20] - 传统方法中模型将代码用于“验证”占比68.2%，CoRT成功将模型行为转变为以“计算”为核心占比51.1%[20] - 在未见过化学问题测试中，CoRT训练模型能自发使用未在训练中出现过的专业工具库RDKit，使用率高达81.3%[20] 行业意义与展望 - CoRT框架为解决大型语言模型在精确推理领域的短板提供了高样本效率、高计算效率的全新路径[16] - 该工作展示了构建更强大、更可靠、更经济的AI智能体系统的巨大潜力[17] - 为AI在科学发现、教育辅助、工程设计等需要精确推理领域的落地应用扫清了障碍[17]