Workflow
元验证
icon
搜索文档
DeepSeek上新:开源模型首达IMO金牌水平,AI推理告别“死记硬背”
观察者网· 2025-11-28 15:17
模型发布与核心性能 - 公司于本周三晚间低调发布专注于数学推理与定理证明的新模型DeepSeek-Math-V2,参数量为685B [1] - 在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中,模型均达到金牌水平 [1] - 在普特南(Putnam 2024)数学竞赛中,模型通过扩展测试计算取得118分(满分120分)的近乎满分成绩,远超人类选手约90分的历史最高分记录 [1] 具体竞赛成绩 - 在IMO 2025竞赛中,模型在P1至P5题上取得83.3%的成绩 [3] - 在CMO 2024竞赛中,模型在P1、P2、P4、P5、P6题上取得73.8%的成绩 [3] - 在Putnam 2024竞赛中,模型在A1至B4、B5、B6题上取得98.3%的成绩 [3] 基准测试对比 - 在IMO-ProofBench基准测试的基础集上,模型得分接近99%,大幅领先谷歌Gemini DeepThink (IMO Gold) 的89% [4] - 在难度更高的进阶集上,模型得分61.9%,略低于Gemini DeepThink的65.7%,但作为开源模型已无限接近闭源商用模型的顶尖水平 [4] - 在自主构建的91个CNML级别问题测试中,模型在代数、几何、数论、组合学和不等式等所有类别中,均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表现 [4] 核心技术革新 - 模型采取严苛的“死磕过程”策略,必须展示清晰、严谨的分步推导过程,只要中间步骤出现逻辑断裂,即便最终结果正确也不给予正向反馈,以解决“推理假象”问题 [5][6] - 公司独创多层级的“元验证”机制,通过类似“套娃”的监督架构(学生-老师-校长),将评分系统的置信度从0.85提升至0.96,极大保证训练数据质量 [9] - 模型展现出类似人类“三省吾身”的自我反思能力,在处理高难度定理证明时,能通过测试时间计算进行停顿和自省,一旦发现逻辑漏洞会自主推翻重写 [9] 行业影响与市场定位 - 模型发布在海外开发者社区引发强烈反响,被舆论称为“鲸鱼回归”,以10个百分点的优势在基础基准上击败谷歌获奖模型,打破顶级推理模型长期被闭源巨头垄断的局面 [11] - 行业推测公司极有可能将这一逻辑验证能力迁移至编程模型,届时将对现有代码辅助工具市场产生巨大冲击 [11] - 模型代码与权重已在Hugging Face及GitHub平台完全开源,为开源社区提供了通过构建严谨验证机制而非单纯堆砌算力来实现机器智能质变的技术演进路线 [11]
DeepSeek再破谷歌OpenAI垄断:开源IMO数学金牌大模型
量子位· 2025-11-28 09:53
文章核心观点 - DeepSeek开源了专注于可自验证数学推理的新模型DeepSeekMath-V2,其在多项国际顶级数学竞赛中取得超越人类和主要竞争对手的卓越成绩[1][7] - 该模型的核心创新在于通过迭代的强化学习循环,开发和利用强大的证明验证能力来指导和优化证明生成,克服了传统方法的局限性[7][9] - 模型的发布被视为对OpenAI和谷歌等行业巨头的重要市场动向,可能影响行业竞争格局[5] 模型性能表现 - 在Putnam 2024竞赛中得分118/120,超过人类最高分90分[2][43] - 在IMO 2025和CMO 2024竞赛中取得金牌级分数,其中IMO 2025的P1至P5题目正确率达到83.3%[2][44] - 在所有CNML级别问题类别(代数、几何、数论、组合学、不等式)上均优于GPT-5-Thinking-High和Gemini 2.5-Pro[2][34] - 这是第一个开源的IMO金牌模型[4] 技术方法创新 - 采用685B参数的大型语言模型架构,专注于自验证数学推理[7] - 开发迭代的强化学习循环,交替优化证明验证器和证明生成器[9] - 引入元验证机制作为二级评估过程,审查验证器生成的证明分析,使验证器分析的平均质量分数从0.85提升到0.96[14][21] - 训练验证器能够根据人类专家标准识别证明问题并评分,分数分为1、0.5和0三个级别[10] - 利用从AoPS竞赛收集的1.75万个奥赛级别数学问题构建初始数据集[12] 训练流程优化 - 实现完全自动化的数据标注流程,在最终训练迭代中取代耗时的人工标注[29][31] - 采用GRPO进行强化学习,迭代地优化证明验证和生成能力[32] - 通过拒绝微调巩固前次迭代中的验证和生成能力[33] - 证明生成器具备自我审查和修正能力,随着最大顺序尝试次数增加,Pass@1指标大幅提升[23][40] 团队背景 - 论文一作邵智宏是DeepSeekMath 7B的一作,提出了经典的GRPO方法[6][45][46] - 邵智宏目前是DeepSeek从事大模型推理研究的研究员,本科毕业于北京航空航天大学,博士毕业于清华[48]