IMO题库“过时”了！OpenAI内部模型挑战最新First Proof，做了7天错了一半

OpenAI内部模型数学推理能力进展 - OpenAI使用一款尚未发布的内部模型，在一周内尝试解答10道来自数学家真实研究过程中的自然问题，其中有5道被认为基本正确[2][5] - 这批题目不来自标准题库或竞赛题，直接取自数学家真实研究过程中的自然问题，切断了模型“背答案”或通过训练数据污染获得优势的可能性，意味着模型自主推理能力再次进化[4][5][6] - 该内部模型很快就要发布[9] 测试方法与过程 - 测试是一次为期一周的侧向冲刺，主要通过查询当前正在训练的模型来完成，方法论上仍有局限[14] - 在评估过程中，没有向模型提供证明思路或数学提示，对于部分解答，只是在专家反馈后要求模型进一步展开证明细节[14][15] - 团队人工协调该模型与ChatGPT之间的往返交流，用于验证、格式整理与风格调整，对于个别问题，最终呈现的版本是基于人工判断从多次尝试中挑选出的最佳结果[16][17] - 在10道题中，OpenAI的内部模型在第4、5、6、9、10题上给出了较为可靠的答案[18] 具体问题与模型解题思路 - 问题4：有限加性卷积与调和平均不等式：模型通过线性代数转化、特征转化、矩阵分解和不等式放缩等步骤给出思路[33][34] - 问题5：O-适配切片滤过与切片连通性的几何不动点判据：模型通过结构定义和判据建立给出思路，将整体结构转化为局部检测问题[34] - 问题6：大规模ε-轻顶点子集：模型通过部分着色构造、屏障函数控制和子集提取等步骤给出思路，证明存在常数c=1/256[43] - 问题9：缩放四线性行列式张量之间的代数关系：模型通过张量封装、构造映射和秩约束证明等步骤给出思路[43] - 问题10：含缺失数据的核化CP-ALS子问题：模型通过矩阵自由算子、Kronecker预条件子和快速求逆应用等步骤给出思路[43] 测试背景与项目意义 - 测试题目来自“1st Proof”项目，这是一个面向AI能力评估的实验性项目，核心目标是用真实科研过程中自然产生的数学问题测试AI是否能够自主完成研究级证明[38][44] - 项目首轮发布了10道研究级数学问题，涵盖代数组合、谱图论、代数拓扑等多个数学方向，都来自作者自身研究过程，并且理论上可在约5页证明内解决[45] - 问题解答文件已于2月13日发布，而模型测试是在正式发布前一周完成的，这些问题本身仍处在持续讨论与研究阶段，模型给出的结果并不存在“标准答案”[39][40] - 社区验证成为过程的一部分，例如第2题最初看似成立，后来被指出可能存在问题[12][42] 行业反响与评估范式转变 - 卡内基梅隆大学助理教授Yang Liu详细讨论了第六题，表示OpenAI的解答基本正确，并直言当前模型在数学能力上的进步令人印象深刻[46] - 有观点认为，如果大语言模型能够处理原创性的数学问题，AI或许很快就会开始产生新的洞见，这将成为STEM研究领域的一个颠覆性转折点[49] - 测试设计本身值得关注：由11位数学家构建的高难度问题集，直接取自未发表研究，无法通过检索获得答案，只能依赖推理与构造[51] - 关键变化在于：当模型面对无法背诵答案的问题，仍能产出被专家认真评估的证明路径时，它展现出的行为更接近自主推理，而非知识回放[52] - 这释放了两个信号：一方面OpenAI内部模型的数学推理能力正在逼近研究级问题空间；另一方面，评测范式正在改变，开始用真实问题检验模型的思考能力[53][54]