IMO题库“过时”了!OpenAI内部模型挑战最新First Proof,做了7天错了一半
量子位·2026-02-15 16:00

OpenAI内部模型数学推理能力进展 - OpenAI使用一款尚未发布的内部模型,在一周内尝试解答10道来自数学家真实研究过程中的自然问题,其中有5道被认为基本正确[2][5] - 这批题目不来自标准题库或竞赛题,直接取自数学家真实研究过程中的自然问题,切断了模型“背答案”或通过训练数据污染获得优势的可能性,意味着模型自主推理能力再次进化[4][5][6] - 该内部模型很快就要发布[9] 测试方法与过程 - 测试是一次为期一周的侧向冲刺,主要通过查询当前正在训练的模型来完成,方法论上仍有局限[14] - 在评估过程中,没有向模型提供证明思路或数学提示,对于部分解答,只是在专家反馈后要求模型进一步展开证明细节[14][15] - 团队人工协调该模型与ChatGPT之间的往返交流,用于验证、格式整理与风格调整,对于个别问题,最终呈现的版本是基于人工判断从多次尝试中挑选出的最佳结果[16][17] - 在10道题中,OpenAI的内部模型在第4、5、6、9、10题上给出了较为可靠的答案[18] 具体问题与模型解题思路 - 问题4:有限加性卷积与调和平均不等式:模型通过线性代数转化、特征转化、矩阵分解和不等式放缩等步骤给出思路[33][34] - 问题5:O-适配切片滤过与切片连通性的几何不动点判据:模型通过结构定义和判据建立给出思路,将整体结构转化为局部检测问题[34] - 问题6:大规模ε-轻顶点子集:模型通过部分着色构造、屏障函数控制和子集提取等步骤给出思路,证明存在常数c=1/256[43] - 问题9:缩放四线性行列式张量之间的代数关系:模型通过张量封装、构造映射和秩约束证明等步骤给出思路[43] - 问题10:含缺失数据的核化CP-ALS子问题:模型通过矩阵自由算子、Kronecker预条件子和快速求逆应用等步骤给出思路[43] 测试背景与项目意义 - 测试题目来自“1st Proof”项目,这是一个面向AI能力评估的实验性项目,核心目标是用真实科研过程中自然产生的数学问题测试AI是否能够自主完成研究级证明[38][44] - 项目首轮发布了10道研究级数学问题,涵盖代数组合、谱图论、代数拓扑等多个数学方向,都来自作者自身研究过程,并且理论上可在约5页证明内解决[45] - 问题解答文件已于2月13日发布,而模型测试是在正式发布前一周完成的,这些问题本身仍处在持续讨论与研究阶段,模型给出的结果并不存在“标准答案”[39][40] - 社区验证成为过程的一部分,例如第2题最初看似成立,后来被指出可能存在问题[12][42] 行业反响与评估范式转变 - 卡内基梅隆大学助理教授Yang Liu详细讨论了第六题,表示OpenAI的解答基本正确,并直言当前模型在数学能力上的进步令人印象深刻[46] - 有观点认为,如果大语言模型能够处理原创性的数学问题,AI或许很快就会开始产生新的洞见,这将成为STEM研究领域的一个颠覆性转折点[49] - 测试设计本身值得关注:由11位数学家构建的高难度问题集,直接取自未发表研究,无法通过检索获得答案,只能依赖推理与构造[51] - 关键变化在于:当模型面对无法背诵答案的问题,仍能产出被专家认真评估的证明路径时,它展现出的行为更接近自主推理,而非知识回放[52] - 这释放了两个信号:一方面OpenAI内部模型的数学推理能力正在逼近研究级问题空间;另一方面,评测范式正在改变,开始用真实问题检验模型的思考能力[53][54]

IMO题库“过时”了!OpenAI内部模型挑战最新First Proof,做了7天错了一半 - Reportify