Workflow
大模型数学推理
icon
搜索文档
ICLR 2026|MathForge:用难题驱动强化学习,提升大模型数学推理
机器之心· 2026-04-26 10:31
核心观点 - 研究提出MathForge框架,其核心观点是:在通过强化学习提升大模型数学推理能力时,应聚焦于“更难但可学”的问题,而非最简单或完全不会的问题,即“Harder Is Better”[3][40][41] - 该框架从算法和数据两端同时发力,通过难度感知的组策略优化(DGPO)和多方面问题改写(MQR)双轮驱动,显著提升模型性能[10][16][40] 现有方法的局限性 - 算法层面:广泛使用的GRPO方法在参数更新上会天然偏向中等难度问题,对过难和过易问题的更新幅度会被压低,导致最有训练价值的“难而可学”问题未能得到足够重视[7][8][17] - 数据层面:已有的数据增强方法要么难以保证新生成题目的答案质量,要么仅做简单重述而未真正提高题目内在难度[9] MathForge框架的算法创新:DGPO - DGPO通过“先平衡,再重加权”的两步过程,使模型更有效地学习难题[11] - 第一步(DGAE):用平均绝对偏差(MAD)替代标准差进行优势归一化,将不同难度题目的参数更新幅度拉平,不再天然偏向中等难度题[12][18] - 第二步(DQW):在更新幅度平衡后,根据题目当前平均正确率估计难度,对更难但仍有学习信号的问题赋予更高权重[19] - 算法分析表明,DGAE与DQW两者互补且均为必要设计,且DGPO可作为通用增强机制与多种现有强化学习方法结合,带来额外收益[35][36] MathForge框架的数据创新:MQR - MQR通过三种策略在保持标准答案不变的前提下,系统性地将原题改写得更有挑战性,以提供更有价值的训练样本[20][28] - **Background策略**:加入干扰性背景信息,迫使模型从复杂叙述中提取关键数学条件[22][23] - **Term策略**:为核心概念引入新的抽象术语,迫使模型理解定义和结构而非依赖表面表达[24][25] - **Sub-Problem策略**:将关键数值条件改造成需先行求解的子问题,增加推理链条长度和复杂度[26][27] - 实验表明,三种改写策略单独使用均有效,组合使用效果最佳,且其价值在于提升了样本质量而非简单增加数量[37][38] 实验结果与有效性验证 - **整体性能提升**:完整的MathForge框架在多个数学推理数据集(AIME24, AIME25, AMC23, MATH500, Minerva, Olympiad)上,相比强基线GRPO带来了平均超过4.5个百分点的显著提升[30][31] - **模型普适性**:MathForge在不同规模(从1.5B到7B参数)和不同类型的基础模型上均能带来约3到4.5个百分点的稳定收益,表明其是一种普适的训练原则而非针对特定模型的调参技巧[33] - **任务泛化性**:DGPO被成功应用于多模态数学推理场景,相比GRPO提升超过2个百分点,表明其思路具有更广泛的适用性[36] - **训练动态优化**:采用DGPO训练的模型不仅准确率更高,且输出更简短,表明其学会了更高效的推理路径而非冗长的推理[38]