大模型数学推理 - 财报，业绩电话会，研报，新闻

大模型数学推理

搜索文档

ICLR 2026｜MathForge：用难题驱动强化学习，提升大模型数学推理

机器之心· 2026-04-26 10:31

核心观点 - 研究提出MathForge框架，其核心观点是：在通过强化学习提升大模型数学推理能力时，应聚焦于“更难但可学”的问题，而非最简单或完全不会的问题，即“Harder Is Better”[3][40][41] - 该框架从算法和数据两端同时发力，通过难度感知的组策略优化（DGPO）和多方面问题改写（MQR）双轮驱动，显著提升模型性能[10][16][40] 现有方法的局限性 - 算法层面：广泛使用的GRPO方法在参数更新上会天然偏向中等难度问题，对过难和过易问题的更新幅度会被压低，导致最有训练价值的“难而可学”问题未能得到足够重视[7][8][17] - 数据层面：已有的数据增强方法要么难以保证新生成题目的答案质量，要么仅做简单重述而未真正提高题目内在难度[9] MathForge框架的算法创新：DGPO - DGPO通过“先平衡，再重加权”的两步过程，使模型更有效地学习难题[11] - 第一步（DGAE）：用平均绝对偏差（MAD）替代标准差进行优势归一化，将不同难度题目的参数更新幅度拉平，不再天然偏向中等难度题[12][18] - 第二步（DQW）：在更新幅度平衡后，根据题目当前平均正确率估计难度，对更难但仍有学习信号的问题赋予更高权重[19] - 算法分析表明，DGAE与DQW两者互补且均为必要设计，且DGPO可作为通用增强机制与多种现有强化学习方法结合，带来额外收益[35][36] MathForge框架的数据创新：MQR - MQR通过三种策略在保持标准答案不变的前提下，系统性地将原题改写得更有挑战性，以提供更有价值的训练样本[20][28] - **Background策略**：加入干扰性背景信息，迫使模型从复杂叙述中提取关键数学条件[22][23] - **Term策略**：为核心概念引入新的抽象术语，迫使模型理解定义和结构而非依赖表面表达[24][25] - **Sub-Problem策略**：将关键数值条件改造成需先行求解的子问题，增加推理链条长度和复杂度[26][27] - 实验表明，三种改写策略单独使用均有效，组合使用效果最佳，且其价值在于提升了样本质量而非简单增加数量[37][38] 实验结果与有效性验证 - **整体性能提升**：完整的MathForge框架在多个数学推理数据集（AIME24, AIME25, AMC23, MATH500, Minerva, Olympiad）上，相比强基线GRPO带来了平均超过4.5个百分点的显著提升[30][31] - **模型普适性**：MathForge在不同规模（从1.5B到7B参数）和不同类型的基础模型上均能带来约3到4.5个百分点的稳定收益，表明其是一种普适的训练原则而非针对特定模型的调参技巧[33] - **任务泛化性**：DGPO被成功应用于多模态数学推理场景，相比GRPO提升超过2个百分点，表明其思路具有更广泛的适用性[36] - **训练动态优化**：采用DGPO训练的模型不仅准确率更高，且输出更简短，表明其学会了更高效的推理路径而非冗长的推理[38]