不只是“做题家”!DeepSeek最新模型打破数学推理局限,部分性能超越Gemini DeepThink
模型发布与核心创新 - 公司于11月27日晚间在Hugging Face发布最新开源数学模型DeepSeek Math-V2 [1] - 模型核心创新在于采用自验证方法突破AI深度推理局限 通过验证器训练证明生成器并激励其自我识别和解决证明中的问题 [1] - 该方法旨在解决大模型在数学领域“只重视答案却无法保证推理过程严谨正确”的症结 推动从“结果导向”转向“过程导向”的验证 [1][5] 性能表现与基准测试 - 模型在IMO 2025和CMO 2024上取得金牌级成绩 在北美Putnam 2024竞赛中获118/120接近满分 [2] - 在IMO-Proof Bench基准测试中得分高达99% 高于谷歌Gemini Deep Think的89%和GPT 5的59% [3] - 在IMO-Proof Bench进阶测试中得分61.9% 仅次于谷歌Gemini Deep Think的65.7% [3] - 模型是首个开源的IMO金牌级模型 并在部分性能上展现出比OpenAI和谷歌更大的优势 [2][3] 行业影响与专家评价 - 行业观点认为模型标志着从“聊天机器人”时代过渡到“推理者”时代 其自验证数学推理方法是一个可行的研究方向 [5][8] - 开源模型将有助于自动化注重验证的编程语言中的繁琐工作 其全天候数学推理能力潜力巨大 [5] - AI领域KOL和专家评价称“DeepSeek强势回归” 认为这是“无法忽视的力量” [8][9] - 跨学科团队Binary Verse AI指出模型突破了本科数学瓶颈 其意义不仅在于竞赛分数更在于方法论的创新 [6][8]