Workflow
思维链也会「跳帧」?浙大团队提出CoT-Bridge,显著提升数学推理性能
机器之心·2025-06-03 14:26

核心观点 - 浙江大学联合微软亚洲研究院、香港中文大学提出CoT-Bridge方法,通过检测和补全思维链中的逻辑跳跃,显著提升大语言模型在数学和逻辑任务中的推理准确率[1][10][11] - 思维跳跃(Thought Leap)是CoT推理链中因专家经验性省略导致的中间步骤缺失,造成模型训练效果降低27 83%和收敛速度变慢[5][14] - CoT-Bridge作为即插即用模块,在知识蒸馏和强化学习流程中分别带来+3 02%和+3 1%的准确率提升[19] 技术方法 - Leap检测与步骤补全:识别推理链中的逻辑跳跃并生成缺失的中间步骤,基于ScaleQM+数据集训练Qwen2 5-Math-7B模型实现自动补全[11][12][13] - 数据集构建:通过有控制地删除ScaleQuestMath原始推理链中的步骤,构造含Thought Leap的训练样本[13] - 模型训练:使用MetaMathQA(395K样本)和NuminaMath(859K样本)进行监督微调,最大性能增益达+5 87%[17][18] 实验结果 - 数学推理任务:在GSM8K和MATH基准上,CoT-Bridge使Meta-Llama3 1-8B准确率提升+2 24%,Qwen2 5-Math-1 5B提升+0 58%[18] - 逻辑推理任务:OOD场景下,模型在FOLIO等数据集平均准确率提升2 99%,无效输出比例下降[21] - 蒸馏增强:对Qwen2 5-Instruct-72B生成的蒸馏数据补全后,准确率额外提升3 02%[19] 性能指标 | 模型/数据集 | 基础准确率 | CoT-Bridge增益 | 关键指标变化 [18] |---------------------|------------|----------------|--------------------- | Meta-Llama3 1-8B | 78 90% | +2 24% | MATH任务+2 03% | Qwen2 5-Math-1 5B | 81 01% | +0 58% | NuminaMath+5 87% | 蒸馏数据增强 | - | +3 02% | 知识蒸馏流程优化[19]