可验证的数学推理 - 财报，业绩电话会，研报，新闻

可验证的数学推理

搜索文档

36氪· 2025-11-28 09:55

模型发布与核心成就 - DeepSeek发布开源数学大模型DeepSeekMath-V2，该模型是首款开源的IMO金牌水平模型[1] - 模型在IMO 2025中破解5题（共6题），达到金牌水平[3] - 在CMO 2024（中国数学奥林匹克）中达到金牌水平[3] - 在Putnam 2024中得分118分（接近满分120分），超越人类参赛者最高分90分[3] 核心技术突破：自验证 - 模型核心突破为自验证技术，通过自我反思提升证明能力[12] - 采用三位一体系统：证明生成器负责解题并诚实自我评价，证明验证器专门挑刺打分，元验证器检查验证器判断准确性[15][16] - 元验证器使验证器输出分析的平均质量分数从0.85提升到0.96，同时保持打分准确率[18] - 在最后两轮训练迭代中，全自动标注流水线完全替代人工标注，且自动生成标签与人类专家判断高度一致[19] 性能基准测试表现 - 在IMO-ProofBench中展现出强大定理证明能力，IMO 2025解题正确率达83.3%[3][4] - CMO 2024解题正确率达73.8%，Putnam 2024正确率达98.3%[4] - 在ProofBench-Basic上实力碾压谷歌金牌模型Gemini Deep Think，在ProofBench-Advanced上直追谷歌[5] 与行业领先模型对比 - 在内部测试集CNML上，DeepSeekMath-V2的One-Shot能力展现出统治级实力，全方位碾压GPT-5和Gemini[26][28] - 在允许自我验证的连续修正实验中，模型在代数、几何、数论与组合等领域均领先于GPT-5和Gemini，几何得分几乎是Gemini 2.5-Pro的三倍[29] - 模型具备高度自知之明，从自己生成的32个解法中挑选最佳答案时，评分准确度极高，得分跃升至0.42[31] 技术实现与进化特征 - 采用高算力搜索策略，对每道题初始生成64个候选证明，并为每个证明生成64个独立验证分析，只有通过所有验证的证明才被视为完全可信[32][33][34] - 模型进化特征显著，初始状态平均得分为0.15，经过8次自我修正后，证明质量分数飙升到0.27[38] - 实验证实LLM可以被训练成可靠的数学验证者，模型能准确找出未解题目证明中的漏洞，并通过所有考验的解法则真实可信[35]

Seek .(US:SKLTY)

自验证（Self-Verification）

可验证的数学推理

Artificial Intelligence

DeepSeekMath-V2

Gemini Deep Think

GPT-5-Thinking-High

自验证（Self-Verification）

可验证的数学推理

Artificial Intelligence

DeepSeekMath-V2

Gemini Deep Think

GPT-5-Thinking-High