比IMO还难的数学挑战赛，谷歌赢了OpenAI

事件概述 - 谷歌旗下基于Gemini 3 Deep Think的数学智能体Aletheia，在由11位顶尖数学家设计的FirstProof挑战赛中，全程0人工参与解出10道题中的6道，其中5题获专家全票通过，一题获5/7通过率 [1][2][6] - OpenAI内部模型在同一测试中基本正确解答5道题，但在过程中动用了人工来挑选最佳答案 [3] - 与传统的IMO竞赛题不同，FirstProof的题目直接来源于数学家真实遇到的、从未公开发布过的难题，且答案在AI考试后才公布，杜绝了背答案的可能 [4] 参赛者表现对比 - 谷歌Aletheia：自主解答6题，包括OpenAI被质疑逻辑问题的第2题，在专家评审中，第2、5、7、9、10题获全票通过，第8题获5/7通过率 [5][6] - OpenAI模型：初期公布解答6题，后因社区对第2题提出逻辑质疑，保守调整为5题基本正确，团队承认在测试中人工协调了模型与ChatGPT的交流，用于验证、格式整理与风格调整，个别问题最终呈现的是人工挑选的最佳结果 [4][5] 技术细节与能力 - 底层模型与架构：Aletheia搭载了A（2026年2月版）和B（2026年1月版）两个版本的Gemini 3 Deep Think模型，采用最优二选一策略 [8] - 全自主流程：具备从读取原始问题、自主推理、内置验证到输出LaTeX格式答案的完整0人工干预流程，对于无法可靠证明的题目，模型会输出“无解决方案”而非胡编乱造 [8] - 动态资源分配：能根据题目难度动态调整推理算力，例如对公认难度最高的第7题投入远超常规的算力，通过Generator子代理多轮生成和Verifier子代理严格校验攻克；对于第10题等数值型题目，能通过算法优化将每轮迭代复杂度压缩到O(qr+n²r)，比传统线性求解器的O(n³r³)快几个量级 [10] 题目与成就亮点 - 题目性质：题目非标准化竞赛题，而是来自真实研究场景的未公开难题，例如第7题是一个公开未解问题，直至本次挑战赛发布标准答案时才首次被Cappell–Weinberger–Yan团队解决 [4][6] - 成绩含金量：Aletheia在解题数量（6题 vs 5题）和自主性（全程AI自主 vs 人工辅助）上均略胜一筹 [5][6]