DeepSeek V4做数学证明,500倍成本优势:智能体系统刷新多项纪录
机器之心·2026-06-06 12:07

AI在数学证明领域的突破与影响 - AI在数学领域产出速度已远超人类消化能力,数学正从“证明稀缺时代”进入“证明过剩时代”,验证与理解证明成为新瓶颈[1] - OpenAI内部推理模型于2026年5月推翻了困扰离散几何领域近80年的“单位距离猜想”,被菲尔兹奖得主评价为具有划时代意义的里程碑[1] 形式化定理证明的解决方案:Goedel-Architect - 普林斯顿大学研究团队提出名为Goedel-Architect的智能体框架,其核心是使用形式化证明语言Lean,通过机器可检验的方式确保证明正确性[2] - 该框架采用“蓝图”概念,在证明前生成包含所有定义、引理及依赖关系的有向无环图,从而实现并行处理与全局策略调整[7][9] - 框架包含“蓝图精炼”机制,能对证明失败的节点进行结构化诊断,并根据失败原因(命题有误或证明太难)采取修复或分解策略[10][11][12] Goedel-Architect的性能与成本优势 - 在标准测试集PutnamBench(672道题)上,Goedel-Architect的通过率达75.6%,高于此前由谷歌Gemini 2.5 Pro驱动的Hilbert系统(70.0%)[3][4] - 完成PutnamBench评测的总花费仅为294美元,而Hilbert系统的API调用费用约为17万美元,成本相差约500倍[3][16] - 在借助自然语言证明辅助后,该系统在PutnamBench上的通过率进一步提升至88.8%(解决597/672题),总花费仍低于1000美元[15] 在多项数学竞赛基准上的表现 - 在MiniF2F-test(244道高中竞赛题)上,Goedel-Architect在pass@1设置下解决了242道题(99.2%),与最强开源系统持平[14] - 借助自然语言辅助后,成为首个完全解决MiniF2F-test全部244道题的系统[14] - 在更新的竞赛题上,解决了IMO 2025的4/6道题、Putnam 2025的11/12道题,以及在污染免疫测试USAMO 2026上解决了3/6道题[15][17] 技术架构与创新价值 - 性能提升主要源于pipeline设计创新,而非仅依赖更好的模型。在相同骨干模型(DeepSeek-V4-Flash)下,Goedel-Architect在MiniF2F上达到99.2%,而采用递归分解策略的Hilbert移植版仅为84.4%[18] - 蓝图策略允许全局视图和并行处理,避免了递归分解策略易陷入局部死循环的低效问题[9][18] - 该框架将形式化定理证明基础设施的访问成本降低了约两个数量级,使高质量、可验证的AI数学证明变得更为经济可行[19][20] 团队背景与核心模型 - 研究团队来自普林斯顿大学语言与智能研究中心(PLI),由计算复杂性理论权威Sanjeev Arora和知名学者陈丹琦共同领导[4][5] - 团队此前已发布Goedel-Prover系列开源模型,在MiniF2F基准上的性能从60%提升至90%[6] - 系统的核心模型采用了国内开源大模型DeepSeek-V4-Flash[2]

DeepSeek V4做数学证明,500倍成本优势:智能体系统刷新多项纪录 - Reportify