DeepSeek强势回归,开源IMO金牌级数学模型
机器之心·2025-11-27 20:13

模型发布与性能突破 - DeepSeek在Hugging Face上新发布了数学推理模型DeepSeek-Math-V2 [1] - 新模型基于DeepSeek-V3.2-Exp-Base开发,性能优于Gemini DeepThink,实现了IMO金牌级水平 [5] - 在Putnam 2024竞赛中以扩展测试计算实现了接近满分的118/120分(98.3%)[20][21] 技术架构创新 - 公司提出由验证器、元验证和生成器组成的自我验证系统,类比“学生-老师-督导”机制 [12][13][17] - 验证器将证明过程分为三档评分:1分(完美)、0.5分(有小瑕疵)、0分(有根本错误)[16] - 元验证机制专门检查验证器评语的合理性,解决模型幻觉问题,提升评估准确性 [14] - 生成器具备自我评价功能,采用诚实奖励机制,对诚实指出错误的行为给予奖励 [17][18] 性能表现数据 - 在IMO 2025竞赛中取得83.3%的成绩,在CMO 2024中取得73.8%的成绩 [21] - 在IMO-ProofBench基准的Basic子集上达到近99%的高分 [22] - 在Advanced子集上表现略逊于Gemini Deep Think (IMO Gold) [22] 方法论突破 - 从“结果导向”转向“过程导向”,不再依赖最终答案正确性作为唯一奖励 [7][20] - 设计自动化闭环系统,通过“左右互搏”实现自我进化,自动筛选难题作为训练数据 [19][23] - 该方法不依赖大量数学题答案数据,而是教会AI像数学家一样严谨审查证明过程 [20]