MathFusion

搜索文档
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion
量子位· 2025-06-17 15:41
核心观点 - 当前数学领域的数据生成方法局限于单个问题的改写或变换,缺乏对题目间内在关联性的挖掘 [1] - MathFusion通过指令融合增强大语言模型解决数学问题的能力,打破传统局限 [1] - 仅使用45K合成指令,MathFusion在多个基准测试中平均准确率提升18.0个百分点,展现卓越数据效率和性能 [2] 融合策略 - 顺序融合(Sequential Fusion):将两个问题串联,前一个问题的答案作为后一个问题的输入条件,模拟多步骤问题解决过程 [5] - 并列融合(Parallel Fusion):将两个相似问题融合,识别并融合数学概念后提出新问题 [6] - 条件融合(Conditional Fusion):创造需要对两个问题的解进行比较和选择的问题场景 [6] - 三种策略结合生成全新融合数据集MathFusionQA,通过embedding search识别适合融合的问题对并利用GPT-4o-mini生成解答 [6] 实验结果 - MathFusion在DeepSeekMath-7B、Mistral-7B、Llama3-8B等模型上实现稳定性能提升 [9] - 组合融合策略优于单一策略,在DeepSeekMath-7B上平均提升3.1分,Llama3-8B提升4.9分,Mistral-7B提升7.5分 [10] - 在out-of-domain基准测试中超越标准模型,展现强大泛化能力 [11] - MathFusion-DSMath-7B使用195K样本时,在MATH测试集准确率达58.2%,GSM8K达79.5%,College达40.3% [9] 数据特性与扩展性 - 融合后问题指令遵循难度(IFD)更高,模型性能随数据量呈对数增长 [13] - MathFusionQA与DART-Math数据集结合使用时性能可进一步提升,显示问题融合与挖掘难题思路互补 [13] - t-SNE可视化显示融合问题在特征空间分布更均匀广泛 [13] - 当前验证限于GSM8K、MATH等简单数学问题及short cot solution数据集,需扩展至更复杂领域 [12]