Workflow
First Proof实验方案
icon
搜索文档
11位顶尖数学家发了篇没结果的论文,陶哲轩推荐都关注一下
猿大侠· 2026-02-11 12:11
实验概述与核心目标 - 一项名为“First Proof”的实验,由11位全球顶尖数学家发起,旨在探索AI在数学研究中的能力边界[1] - 核心目标是检验当前AI系统是否具备独立解决研究级数学问题的能力[6] - 实验方法为让AI在规定期限内,解决10道由数学家从其真实研究过程中产生的“研究级”难题[1] 实验设计特点 - 实验设计了10道研究级数学问题,覆盖代数组合学、谱图论、代数拓扑、随机分析、辛几何等多个数学分支[10] - 问题均来自作者自身的研究过程,是未来发表成果中的小型核心引理,未在任何公共渠道发布,从根源上避免了数据污染[18] - 允许AI无限制使用网络搜索等外部资源,以贴近真实研究场景[15] - 人类证明已加密保存,最终答案将于2026年2月13日统一公开,在此之前全球用户可用这10道题测试AI[21] 与现有基准的差异 - 当前市面上的数学AI基准绝大多数聚焦于竞赛题,与真实的数学研究存在本质差异[9] - First Proof使用真实、未公开、研究级的问题,答案为证明过程,需人类专家评分,供社区验证但不可重复使用,彻底消除数据污染[17] - 实验仅聚焦数学研究的最后阶段:在问题表述和研究背景清晰给定的前提下,检验AI完成严谨数学证明的能力,不评估其提出新问题或构建理论框架的能力[23] 初步测试结果与观察 - 邀请GPT 5.2 Pro和Gemini 3 Deepthink对10道题进行一次性作答测试[23] - 结果显示,在当前公开可用的最佳AI系统仅有一次作答机会的情况下,它们难以解答提出的多数问题[24] - 作者预计,如果允许人类与AI反复对话、追问、引导,则很有可能让AI给出更好的答案[25] 未来计划与行业意义 - 计划在数月内设计第二套问题集,并在实验设计上进一步收紧变量,例如在与模型方达成协议后,先让前沿AI测试,再统一公开问题与答案[28] - 未来实验设置将逐步“去人工化”,放宽对证明长度、表达形式等人为限制,引入更多数学分支的问题,覆盖更广泛的研究场景[28] - 实验价值在于第一次用真实、未公开、研究级的问题来界定AI当前所能触及的边界,即使只完整解出一道题,也足以成为AI数学研究史上一个值得记录的节点[29][30] - 实验符合人机协作的未来趋势,其意义不在于给AI下“及格或不及格”的结论,而在于探索边界[29]