Seek .-DeepSeek强势回归，开源IMO金牌级数学模型

模型发布与性能突破 - 公司发布新模型DeepSeek-Math-V2，基于DeepSeek-V3.2-Exp-Base开发 [1][2] - 模型性能优于Gemini DeepThink，达到国际数学奥林匹克竞赛金牌水平 [3] - 在IMO 2025、CMO 2024和Putnam 2024等竞赛中表现优异，其中Putnam 2024接近满分达到118/120 [16][17] 技术方法与创新 - 研究核心从“结果导向”转向“过程导向”，不依赖最终答案正确性作为唯一奖励 [5][16] - 提出可自我验证的数学推理框架，由验证器、元验证和生成器三个关键角色组成系统 [7][8][9][11] - 实现“学生-老师-督导”的类比机制：验证器作为“老师”评估证明过程，元验证作为“督导”检查评估合理性，生成器作为“学生”进行自我验证 [7][8][9][11] - 引入诚实奖励机制，对模型诚实指出自身错误的行为给予奖励，对盲目自信行为进行惩罚 [11][15] 系统运作与能力提升 - 设计自动化闭环流程，通过“海量生成”和“集体投票”方式让系统自我进化 [12][21] - 系统自动筛选难以判卷或难以做对的题目作为新训练数据，实现验证器与生成器的双向协同改进 [7][21] - 该方法大幅减少大模型幻觉问题，提升数学推理的全面性和严谨性 [7][20] 基准测试表现 - 在IMO-ProofBench基准的60道证明题中，Basic子集上达到近99%的高分 [18] - 在更难的Advanced子集上表现略逊于Gemini DeepThink [18] - 上一代模型DeepSeek-Math-7b仅用7B参数量即达到与GPT-4和Gemini-Ultra相当性能 [4]