Workflow
自验证数学推理
icon
搜索文档
吊打谷歌!DeepSeek开源首个“奥数金牌”AI
格隆汇· 2025-11-28 15:09
产品发布与定位 - 公司于近期发布新模型DeepSeekMath-V2,这是一个专注于数学领域的模型 [1] - 该模型是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型 [2] - 模型采用Apache 2.0开源许可证向全球开发者开放权重 [10] 性能表现与基准测试 - 在Basic基准测试中得分接近99%,显著高于谷歌Gemini Deep Think的89% [4] - 在Advanced子集上得分61.9%,略低于Gemini Deep Think的65.7% [4] - 在IMO 2025中破解5题,达到金牌水平 [4] - 在CMO 2024中达到金牌水平 [4] - 在Putnam 2024中得分118接近满分,超越人类参赛者最高分90分 [4] - IMO 2025解题率为83.3%,CMO 2024解题率为73.8%,Putnam 2024解题率为98.3% [7] 技术突破与创新 - 模型引入自验证数学推理的新训练范式 [2][10] - 技术核心是训练一个准确可靠的验证器专门负责检查定理证明的每一步 [10] - 生成器学会在生成证明过程中主动识别和修正自身问题 [11] - 通过扩展验证计算量自动标注难以验证的证明并持续训练验证器 [11] 行业影响与市场反应 - 发布时机精准卡位于头部厂商密集发布新模型的11月 [10] - 打破了闭源模型在顶级数学推理领域的垄断格局 [10] - 国外开发者评价为惊人的发布并以鲸鱼归来形容公司的回归 [8] - 以10个百分点优势超越谷歌的DeepThink令市场感到意外 [8] - 行业正密切关注公司下一代旗舰模型的发布计划 [11]
不只是“做题家”!DeepSeek最新模型打破数学推理局限,部分性能超越Gemini DeepThink
钛媒体APP· 2025-11-28 13:45
模型发布与核心创新 - 公司于11月27日晚间在Hugging Face发布最新开源数学模型DeepSeek Math-V2 [1] - 模型核心创新在于采用自验证方法突破AI深度推理局限 通过验证器训练证明生成器并激励其自我识别和解决证明中的问题 [1] - 该方法旨在解决大模型在数学领域“只重视答案却无法保证推理过程严谨正确”的症结 推动从“结果导向”转向“过程导向”的验证 [1][5] 性能表现与基准测试 - 模型在IMO 2025和CMO 2024上取得金牌级成绩 在北美Putnam 2024竞赛中获118/120接近满分 [2] - 在IMO-Proof Bench基准测试中得分高达99% 高于谷歌Gemini Deep Think的89%和GPT 5的59% [3] - 在IMO-Proof Bench进阶测试中得分61.9% 仅次于谷歌Gemini Deep Think的65.7% [3] - 模型是首个开源的IMO金牌级模型 并在部分性能上展现出比OpenAI和谷歌更大的优势 [2][3] 行业影响与专家评价 - 行业观点认为模型标志着从“聊天机器人”时代过渡到“推理者”时代 其自验证数学推理方法是一个可行的研究方向 [5][8] - 开源模型将有助于自动化注重验证的编程语言中的繁琐工作 其全天候数学推理能力潜力巨大 [5] - AI领域KOL和专家评价称“DeepSeek强势回归” 认为这是“无法忽视的力量” [8][9] - 跨学科团队Binary Verse AI指出模型突破了本科数学瓶颈 其意义不仅在于竞赛分数更在于方法论的创新 [6][8]
DeepSeek再破谷歌OpenAI垄断:开源IMO数学金牌大模型
量子位· 2025-11-28 09:53
文章核心观点 - DeepSeek开源了专注于可自验证数学推理的新模型DeepSeekMath-V2,其在多项国际顶级数学竞赛中取得超越人类和主要竞争对手的卓越成绩[1][7] - 该模型的核心创新在于通过迭代的强化学习循环,开发和利用强大的证明验证能力来指导和优化证明生成,克服了传统方法的局限性[7][9] - 模型的发布被视为对OpenAI和谷歌等行业巨头的重要市场动向,可能影响行业竞争格局[5] 模型性能表现 - 在Putnam 2024竞赛中得分118/120,超过人类最高分90分[2][43] - 在IMO 2025和CMO 2024竞赛中取得金牌级分数,其中IMO 2025的P1至P5题目正确率达到83.3%[2][44] - 在所有CNML级别问题类别(代数、几何、数论、组合学、不等式)上均优于GPT-5-Thinking-High和Gemini 2.5-Pro[2][34] - 这是第一个开源的IMO金牌模型[4] 技术方法创新 - 采用685B参数的大型语言模型架构,专注于自验证数学推理[7] - 开发迭代的强化学习循环,交替优化证明验证器和证明生成器[9] - 引入元验证机制作为二级评估过程,审查验证器生成的证明分析,使验证器分析的平均质量分数从0.85提升到0.96[14][21] - 训练验证器能够根据人类专家标准识别证明问题并评分,分数分为1、0.5和0三个级别[10] - 利用从AoPS竞赛收集的1.75万个奥赛级别数学问题构建初始数据集[12] 训练流程优化 - 实现完全自动化的数据标注流程,在最终训练迭代中取代耗时的人工标注[29][31] - 采用GRPO进行强化学习,迭代地优化证明验证和生成能力[32] - 通过拒绝微调巩固前次迭代中的验证和生成能力[33] - 证明生成器具备自我审查和修正能力,随着最大顺序尝试次数增加,Pass@1指标大幅提升[23][40] 团队背景 - 论文一作邵智宏是DeepSeekMath 7B的一作,提出了经典的GRPO方法[6][45][46] - 邵智宏目前是DeepSeek从事大模型推理研究的研究员,本科毕业于北京航空航天大学,博士毕业于清华[48]