AI七个月突破数学家“围剿”反超人类!14位数学家深挖原始推理token:不靠死记硬背靠直觉
量子位·2025-06-09 15:29
大模型数学能力进展 - 7个月内大模型在FrontierMath测试中正确率从2%提升至22%,超过人类团队平均水平 [1][37] - FrontierMath包含300个数学问题,难度覆盖本科高年级至菲尔兹奖级别 [1] 模型推理机制特征 - o3-mini-high依赖直觉而非严谨证明,29条推理记录中13次成功但存在"作弊式"跳跃推理 [5][13][15] - 模型具备极强知识储备,三分之二问题中数学文献调用评分达3/5分以上 [7][10] - 采用非正式推理风格,初始思路表述粗糙且跳过关键步骤 [14][16] 当前技术局限性 - 缺乏创造力与理解深度,仅能复述知识而无法创新应用 [29][30] - 75%推理记录存在幻觉现象,包括术语错误和虚构引用 [35] - 过度依赖固定解题模式,新思路应用能力弱于复杂计算 [31][32][33] 行业影响与未来挑战 - 模型已能解决部分博士级数论问题,表现超越多数顶尖研究生 [41][42] - FrontierMath难度持续升级至第4级(专业数学家挑战级别) [38] - 行业关注AI能否攻克数学界未解难题(第五层问题) [43]