DeepSeek上新:开源模型首达IMO金牌水平,AI推理告别“死记硬背”
Seek .Seek .(US:SKLTY) 观察者网·2025-11-28 15:17

模型发布与核心性能 - 公司于本周三晚间低调发布专注于数学推理与定理证明的新模型DeepSeek-Math-V2,参数量为685B [1] - 在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中,模型均达到金牌水平 [1] - 在普特南(Putnam 2024)数学竞赛中,模型通过扩展测试计算取得118分(满分120分)的近乎满分成绩,远超人类选手约90分的历史最高分记录 [1] 具体竞赛成绩 - 在IMO 2025竞赛中,模型在P1至P5题上取得83.3%的成绩 [3] - 在CMO 2024竞赛中,模型在P1、P2、P4、P5、P6题上取得73.8%的成绩 [3] - 在Putnam 2024竞赛中,模型在A1至B4、B5、B6题上取得98.3%的成绩 [3] 基准测试对比 - 在IMO-ProofBench基准测试的基础集上,模型得分接近99%,大幅领先谷歌Gemini DeepThink (IMO Gold) 的89% [4] - 在难度更高的进阶集上,模型得分61.9%,略低于Gemini DeepThink的65.7%,但作为开源模型已无限接近闭源商用模型的顶尖水平 [4] - 在自主构建的91个CNML级别问题测试中,模型在代数、几何、数论、组合学和不等式等所有类别中,均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表现 [4] 核心技术革新 - 模型采取严苛的“死磕过程”策略,必须展示清晰、严谨的分步推导过程,只要中间步骤出现逻辑断裂,即便最终结果正确也不给予正向反馈,以解决“推理假象”问题 [5][6] - 公司独创多层级的“元验证”机制,通过类似“套娃”的监督架构(学生-老师-校长),将评分系统的置信度从0.85提升至0.96,极大保证训练数据质量 [9] - 模型展现出类似人类“三省吾身”的自我反思能力,在处理高难度定理证明时,能通过测试时间计算进行停顿和自省,一旦发现逻辑漏洞会自主推翻重写 [9] 行业影响与市场定位 - 模型发布在海外开发者社区引发强烈反响,被舆论称为“鲸鱼回归”,以10个百分点的优势在基础基准上击败谷歌获奖模型,打破顶级推理模型长期被闭源巨头垄断的局面 [11] - 行业推测公司极有可能将这一逻辑验证能力迁移至编程模型,届时将对现有代码辅助工具市场产生巨大冲击 [11] - 模型代码与权重已在Hugging Face及GitHub平台完全开源,为开源社区提供了通过构建严谨验证机制而非单纯堆砌算力来实现机器智能质变的技术演进路线 [11]