文章核心观点 - GPT-5在解决高等数学中未解决的优化猜想方面展现出显著能力,在五道题中成功解出三道[1][2] - GPT-5不仅能够复现已知证明路径,甚至对其中一道题给出了与研究者预期不同但同样有效的证明方案[2][39] - 该测试表明GPT-5具备解决真正开放性数学问题的潜力,其数学推理能力相比早期模型有显著提升[5][26] 测试背景与性质 - 此次测试被称为“哥德尔测试”,挑战的是需要博士水平研究者花费数天才能完成的未解决数学猜想,而非为人类高中生设计的奥林匹克竞赛题[3][8][10] - 测试问题集中于组合数学的子领域——子模最大化,该领域核心是研究边际收益递减的优化问题[12][13][16] - 测试要求模型在仅提供最小化描述和参考文献、无解题提示的情况下,自主生成包含可量化性能保证的严格数学证明[21][24] GPT-5在各题目的具体表现 - 第一题(最大化“单调+非单调”子模函数):GPT-5沿最“贪心”方向微调解,利用函数结构保证结果接近最优,证明总体正确[22][23][27] - 第二题(子模函数最大化的双重标准算法):GPT-5给出的答案比研究者最初猜想更合理,推导基本正确,但存在忽略特例下更精确数字的小问题[33][39][40] - 第三题(凸集合约束下最大化连续单调函数):GPT-5回答正确性较高,但在被要求生成新证明版本时,仍存在细节和可读性问题[45][59][62] - 第四题与第五题:GPT-5均未成功,这两题需要结合至少两个不同文献的洞见,其综合推理能力是主要局限之一[26][63][73][81] 模型能力评估与局限 - GPT-5在基础数学能力上显示出明显提升,并偶尔展现独创性,但输出可能表面上正确而本质上错误,存在深层次缺陷[26] - 提示词对性能影响显著,当被要求提供完整证明时,GPT-5更倾向于保留中间步骤,生成更完整和自洽的解答[26] - 模型倾向于跳过未变步骤并严格模仿原始结构,而非寻求更自然的替代方法,类似人类的偷懒行为[26][41]
GPT-5通过“哥德尔测试”!独创性解决博士生都得花几天时间的开放数学问题
量子位·2025-09-25 21:00