比IMO还难的数学挑战赛,谷歌赢了OpenAI
36氪·2026-02-26 15:59

事件概述 - 谷歌旗下基于Gemini 3 Deep Think的数学智能体Aletheia,在由11位顶尖数学家设计的FirstProof挑战赛中,全程0人工参与解出10道题中的6道,其中5题获专家全票通过,一题获5/7通过率 [1][2][6] - OpenAI内部模型在同一测试中基本正确解答5道题,但在过程中动用了人工来挑选最佳答案 [3] - 与传统的IMO竞赛题不同,FirstProof的题目直接来源于数学家真实遇到的、从未公开发布过的难题,且答案在AI考试后才公布,杜绝了背答案的可能 [4] 参赛者表现对比 - 谷歌Aletheia:自主解答6题,包括OpenAI被质疑逻辑问题的第2题,在专家评审中,第2、5、7、9、10题获全票通过,第8题获5/7通过率 [5][6] - OpenAI模型:初期公布解答6题,后因社区对第2题提出逻辑质疑,保守调整为5题基本正确,团队承认在测试中人工协调了模型与ChatGPT的交流,用于验证、格式整理与风格调整,个别问题最终呈现的是人工挑选的最佳结果 [4][5] 技术细节与能力 - 底层模型与架构:Aletheia搭载了A(2026年2月版)和B(2026年1月版)两个版本的Gemini 3 Deep Think模型,采用最优二选一策略 [8] - 全自主流程:具备从读取原始问题、自主推理、内置验证到输出LaTeX格式答案的完整0人工干预流程,对于无法可靠证明的题目,模型会输出“无解决方案”而非胡编乱造 [8] - 动态资源分配:能根据题目难度动态调整推理算力,例如对公认难度最高的第7题投入远超常规的算力,通过Generator子代理多轮生成和Verifier子代理严格校验攻克;对于第10题等数值型题目,能通过算法优化将每轮迭代复杂度压缩到O(qr+n²r),比传统线性求解器的O(n³r³)快几个量级 [10] 题目与成就亮点 - 题目性质:题目非标准化竞赛题,而是来自真实研究场景的未公开难题,例如第7题是一个公开未解问题,直至本次挑战赛发布标准答案时才首次被Cappell–Weinberger–Yan团队解决 [4][6] - 成绩含金量:Aletheia在解题数量(6题 vs 5题)和自主性(全程AI自主 vs 人工辅助)上均略胜一筹 [5][6]