可验证的数学推理
搜索文档
GPT-5危了,DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌
36氪· 2025-11-28 09:55
模型发布与核心成就 - DeepSeek发布开源数学大模型DeepSeekMath-V2,该模型是首款开源的IMO金牌水平模型[1] - 模型在IMO 2025中破解5题(共6题),达到金牌水平[3] - 在CMO 2024(中国数学奥林匹克)中达到金牌水平[3] - 在Putnam 2024中得分118分(接近满分120分),超越人类参赛者最高分90分[3] 核心技术突破:自验证 - 模型核心突破为自验证技术,通过自我反思提升证明能力[12] - 采用三位一体系统:证明生成器负责解题并诚实自我评价,证明验证器专门挑刺打分,元验证器检查验证器判断准确性[15][16] - 元验证器使验证器输出分析的平均质量分数从0.85提升到0.96,同时保持打分准确率[18] - 在最后两轮训练迭代中,全自动标注流水线完全替代人工标注,且自动生成标签与人类专家判断高度一致[19] 性能基准测试表现 - 在IMO-ProofBench中展现出强大定理证明能力,IMO 2025解题正确率达83.3%[3][4] - CMO 2024解题正确率达73.8%,Putnam 2024正确率达98.3%[4] - 在ProofBench-Basic上实力碾压谷歌金牌模型Gemini Deep Think,在ProofBench-Advanced上直追谷歌[5] 与行业领先模型对比 - 在内部测试集CNML上,DeepSeekMath-V2的One-Shot能力展现出统治级实力,全方位碾压GPT-5和Gemini[26][28] - 在允许自我验证的连续修正实验中,模型在代数、几何、数论与组合等领域均领先于GPT-5和Gemini,几何得分几乎是Gemini 2.5-Pro的三倍[29] - 模型具备高度自知之明,从自己生成的32个解法中挑选最佳答案时,评分准确度极高,得分跃升至0.42[31] 技术实现与进化特征 - 采用高算力搜索策略,对每道题初始生成64个候选证明,并为每个证明生成64个独立验证分析,只有通过所有验证的证明才被视为完全可信[32][33][34] - 模型进化特征显著,初始状态平均得分为0.15,经过8次自我修正后,证明质量分数飙升到0.27[38] - 实验证实LLM可以被训练成可靠的数学验证者,模型能准确找出未解题目证明中的漏洞,并通过所有考验的解法则真实可信[35]