Workflow
可自我验证的数学推理
icon
搜索文档
DeepSeek上新!首个奥数金牌水平的模型来了
第一财经· 2025-11-28 08:22
模型发布与核心成就 - 公司于11月27日在Hugging Face上开源数学模型DeepSeek-Math-V2,该模型是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型[1] - 模型在IMO-ProofBench基准及近期数学竞赛中表现出色,部分性能优于谷歌旗下的Gemini DeepThink模型[1] - 模型在Basic基准上取得近99%的高分,远高于第二名Gemini Deep Think (IMO Gold)的89%分数[5] 具体性能表现 - 在IMO 2025的P1至P5问题上取得83.3%的成绩[4] - 在CMO 2024的P1、P2、P4、P5、P6问题上取得73.8%的成绩[4] - 在Putnam 2024的A1至B4、B5、B6问题上取得98.3%的成绩[4] - 在更难的Advanced子集上得分为61.9%,略低于Gemini Deep Think (IMO Gold)的65.7%[5] - 在Putnam 2024上通过扩展测试计算实现118/120接近满分的成绩[8] 技术创新与研究方向 - 模型从结果导向转向过程导向,展示了强大的定理证明能力,不依赖大量数学题答案数据[8] - 核心创新在于教会AI像数学家一样严谨地审查证明过程,实现自我验证,从而在没有人类干预下提升解决高难度数学证明题的能力[8] - 公司提出自我验证对于扩展测试时间计算尤为重要,特别是针对没有已知解决方案的开放问题[8] - 可自我验证的数学推理被证明是可行的研究方向,可能有助于开发更强大的数学AI系统[8] 行业影响与市场反应 - 海外反应积极,有观点认为公司以10个百分点的优势击败谷歌的IMO Gold获奖模型DeepThink超出预期[9] - 行业期待公司的旗舰模型更新,市场关注"鲸鱼"的下一个动作[10] - 在OpenAI发布GPT-5.1、xAI发布Grok 4.1、谷歌发布Gemini 3系列后,行业关注公司的下一步动作[10]
DeepSeek强势回归,开源IMO金牌级数学模型
36氪· 2025-11-28 07:34
模型发布与性能突破 - 公司发布新模型DeepSeek-Math-V2,基于DeepSeek-V3.2-Exp-Base开发 [1][2] - 模型性能优于Gemini DeepThink,达到国际数学奥林匹克竞赛金牌水平 [3] - 在IMO 2025、CMO 2024和Putnam 2024等竞赛中表现优异,其中Putnam 2024接近满分达到118/120 [16][17] 技术方法与创新 - 研究核心从“结果导向”转向“过程导向”,不依赖最终答案正确性作为唯一奖励 [5][16] - 提出可自我验证的数学推理框架,由验证器、元验证和生成器三个关键角色组成系统 [7][8][9][11] - 实现“学生-老师-督导”的类比机制:验证器作为“老师”评估证明过程,元验证作为“督导”检查评估合理性,生成器作为“学生”进行自我验证 [7][8][9][11] - 引入诚实奖励机制,对模型诚实指出自身错误的行为给予奖励,对盲目自信行为进行惩罚 [11][15] 系统运作与能力提升 - 设计自动化闭环流程,通过“海量生成”和“集体投票”方式让系统自我进化 [12][21] - 系统自动筛选难以判卷或难以做对的题目作为新训练数据,实现验证器与生成器的双向协同改进 [7][21] - 该方法大幅减少大模型幻觉问题,提升数学推理的全面性和严谨性 [7][20] 基准测试表现 - 在IMO-ProofBench基准的60道证明题中,Basic子集上达到近99%的高分 [18] - 在更难的Advanced子集上表现略逊于Gemini DeepThink [18] - 上一代模型DeepSeek-Math-7b仅用7B参数量即达到与GPT-4和Gemini-Ultra相当性能 [4]
DeepSeek强势回归,开源IMO金牌级数学模型
机器之心· 2025-11-27 20:13
模型发布与性能突破 - DeepSeek在Hugging Face上新发布了数学推理模型DeepSeek-Math-V2 [1] - 新模型基于DeepSeek-V3.2-Exp-Base开发,性能优于Gemini DeepThink,实现了IMO金牌级水平 [5] - 在Putnam 2024竞赛中以扩展测试计算实现了接近满分的118/120分(98.3%)[20][21] 技术架构创新 - 公司提出由验证器、元验证和生成器组成的自我验证系统,类比“学生-老师-督导”机制 [12][13][17] - 验证器将证明过程分为三档评分:1分(完美)、0.5分(有小瑕疵)、0分(有根本错误)[16] - 元验证机制专门检查验证器评语的合理性,解决模型幻觉问题,提升评估准确性 [14] - 生成器具备自我评价功能,采用诚实奖励机制,对诚实指出错误的行为给予奖励 [17][18] 性能表现数据 - 在IMO 2025竞赛中取得83.3%的成绩,在CMO 2024中取得73.8%的成绩 [21] - 在IMO-ProofBench基准的Basic子集上达到近99%的高分 [22] - 在Advanced子集上表现略逊于Gemini Deep Think (IMO Gold) [22] 方法论突破 - 从“结果导向”转向“过程导向”,不再依赖最终答案正确性作为唯一奖励 [7][20] - 设计自动化闭环系统,通过“左右互搏”实现自我进化,自动筛选难题作为训练数据 [19][23] - 该方法不依赖大量数学题答案数据,而是教会AI像数学家一样严谨审查证明过程 [20]