证明验证
搜索文档
DeepSeek再破谷歌OpenAI垄断:开源IMO数学金牌大模型
量子位· 2025-11-28 09:53
文章核心观点 - DeepSeek开源了专注于可自验证数学推理的新模型DeepSeekMath-V2,其在多项国际顶级数学竞赛中取得超越人类和主要竞争对手的卓越成绩[1][7] - 该模型的核心创新在于通过迭代的强化学习循环,开发和利用强大的证明验证能力来指导和优化证明生成,克服了传统方法的局限性[7][9] - 模型的发布被视为对OpenAI和谷歌等行业巨头的重要市场动向,可能影响行业竞争格局[5] 模型性能表现 - 在Putnam 2024竞赛中得分118/120,超过人类最高分90分[2][43] - 在IMO 2025和CMO 2024竞赛中取得金牌级分数,其中IMO 2025的P1至P5题目正确率达到83.3%[2][44] - 在所有CNML级别问题类别(代数、几何、数论、组合学、不等式)上均优于GPT-5-Thinking-High和Gemini 2.5-Pro[2][34] - 这是第一个开源的IMO金牌模型[4] 技术方法创新 - 采用685B参数的大型语言模型架构,专注于自验证数学推理[7] - 开发迭代的强化学习循环,交替优化证明验证器和证明生成器[9] - 引入元验证机制作为二级评估过程,审查验证器生成的证明分析,使验证器分析的平均质量分数从0.85提升到0.96[14][21] - 训练验证器能够根据人类专家标准识别证明问题并评分,分数分为1、0.5和0三个级别[10] - 利用从AoPS竞赛收集的1.75万个奥赛级别数学问题构建初始数据集[12] 训练流程优化 - 实现完全自动化的数据标注流程,在最终训练迭代中取代耗时的人工标注[29][31] - 采用GRPO进行强化学习,迭代地优化证明验证和生成能力[32] - 通过拒绝微调巩固前次迭代中的验证和生成能力[33] - 证明生成器具备自我审查和修正能力,随着最大顺序尝试次数增加,Pass@1指标大幅提升[23][40] 团队背景 - 论文一作邵智宏是DeepSeekMath 7B的一作,提出了经典的GRPO方法[6][45][46] - 邵智宏目前是DeepSeek从事大模型推理研究的研究员,本科毕业于北京航空航天大学,博士毕业于清华[48]