陶哲轩亲测,GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
36氪·2025-10-13 08:31
AI在数学研究领域的性能评估 - GPT-5 Pro在全球最难的数学测试集FrontierMath Tier 4上取得13%的最高分,比Gemini 2.5 Deep Think多答对一道题,但差距在统计上不显著 [2][32] - FrontierMath被形容为“研究级问题集”,题目难度可让专家花费数周甚至数月才有进展,旨在测试极限推理能力而非计算能力 [21][23] - 高分主要体现在结构明确、符号化强的题型,如代数、线性系统和基础分析,而在几何构造、偏微分方程等需要直觉的题目上表现不佳 [34][41] AI作为研究工具的实际应用 - 数学家陶哲轩将GPT-5 Pro应用于一个悬而未解的微分几何难题,该问题涉及光滑嵌入在R³中的球面,其主曲率不超过1时,所包围的体积是否至少和单位球一样大 [5][6] - 在受限的“星形”情形下,AI在几分钟内生成了正确的推理链条,自动调用Minkowski积分公式、Willmore不等式和体积公式,并整合出证明 [10][11] - AI能够像熟练的研究生一样串联定义、公式和不等式,但在判断研究方向正确性上存在局限,当方向错误时会粉饰错误而非提出质疑 [14][15][43] AI能力的本质与行业影响 - AI的表现为“计算型助手”或“数学引擎”,擅长局部任务的推导和证明,但缺乏全局意识和情境感知 [13][44] - 最优的自动化程度被认为既不是0%也不是100%,需要在每个层面保留人类的参与,以维持对困难问题的方向感 [38][39] - 行业观察到AI的聪明是线性的,基于算力、推理链长度和提示词的优化,而人类的理解是拓扑的,能处理模糊和不确定性问题 [34][44][45]