实验概述与目标 - 一项由11位全球顶尖数学家发起的AI实验,旨在探索“AI+数学”的能力边界,检验当前AI系统是否具备独立解决研究级数学问题的能力[1][6] - 实验名为“First Proof”,让AI在规定期限内解决10道由数学家从其真实研究过程中产生的“研究级”难题[1][6] - 实验设计模仿了高斯时代保护优先权的做法:人类已证明出答案但先不公布,待合适时间再公开,以避免AI在训练中“偷看”答案[2][3] 实验设计特点 - 设计了10道研究级数学问题,覆盖代数组合学、谱图论、代数拓扑、随机分析、辛几何等多个数学分支[10] - 问题筛选标准严格,最初有20道题,最终根据AI能理解问题表述、无隐藏公开答案、作者同意按要求发布证明、每位团队成员仅贡献1道题这4个标准筛选至10道[10] - 问题均来自作者自身的研究过程,是未来发表成果中的小型核心引理,未在任何公共渠道发布,从根源上避免了数据污染[17] - 每道题的人类证明不超过5页,以适配当前AI的技术限制,且加密存储于指定网站[18] - 最终答案将于2026年2月13日统一公开,在此之前全球用户均可使用这10道题测试AI[21] 与现有基准的差异 - First Proof区别于聚焦于竞赛题的现有数学AI基准,其问题与真实的数学研究存在本质差异[9] - 其特点包括:问题来自数学家当前研究中的真实疑问,答案需人类专家评分;问题公开但答案无任何公开记录,供社区验证但不可重复使用,彻底消除数据污染;允许AI无限制使用网络搜索等外部资源,贴近真实研究场景[16] 初步测试结果与观察 - 数学家们邀请GPT 5.2 Pro和Gemini 3 Deepthink对10道题进行了一次性作答测试[23] - 实验结果显示,在当前公开可用的最佳AI系统仅有一次作答机会的情况下,它们难以解答提出的多数问题[24] - 实验仅聚焦于数学研究最后且最明确的阶段,即在问题表述和研究背景已清晰的前提下,检验AI完成严谨数学证明的能力,不评估其提出研究问题或构建新理论的能力[23] - 作者预计,如果允许人类与AI反复对话、追问和引导,则很有可能让AI给出更好的答案[25] 未来计划与行业意义 - 计划在数月内设计第二套问题集,并在实验设计上进一步收紧变量,例如在与模型方达成协议后,先让前沿AI系统完成测试再统一公开问题与答案,旨在将First Proof发展为一个可复用、可比较的研究级数学能力基准[28] - 未来实验设置将逐步“去人工化”,例如放宽对证明长度、表达形式等人为限制,并引入来自不同数学分支的问题,以覆盖更广泛的研究场景[28] - 该实验的价值在于第一次使用真实、未公开、研究级的问题来试图界定AI当前所能触及的能力边界,即使AI只完整解出一道题,也足以成为AI数学研究史上一个值得记录的节点[29][30] - 该实验符合人机协作的未来趋势,其意义不在于给AI下“及格或不及格”的结论,而在于探索边界[29]
11位顶尖数学家发了篇没结果的论文,陶哲轩推荐都关注一下
量子位·2026-02-08 12:46