AI七个月突破数学家“围剿”反超人类！14位数学家深挖原始推理token：不靠死记硬背靠直觉

大模型数学能力进展 - 7个月内大模型在FrontierMath测试中正确率从2%提升至22%，超过人类团队平均水平 [1][37] - FrontierMath包含300个数学问题，难度覆盖本科高年级至菲尔兹奖级别 [1] 模型推理机制特征 - o3-mini-high依赖直觉而非严谨证明，29条推理记录中13次成功但存在"作弊式"跳跃推理 [5][13][15] - 模型具备极强知识储备，三分之二问题中数学文献调用评分达3/5分以上 [7][10] - 采用非正式推理风格，初始思路表述粗糙且跳过关键步骤 [14][16] 当前技术局限性 - 缺乏创造力与理解深度，仅能复述知识而无法创新应用 [29][30] - 75%推理记录存在幻觉现象，包括术语错误和虚构引用 [35] - 过度依赖固定解题模式，新思路应用能力弱于复杂计算 [31][32][33] 行业影响与未来挑战 - 模型已能解决部分博士级数论问题，表现超越多数顶尖研究生 [41][42] - FrontierMath难度持续升级至第4级（专业数学家挑战级别） [38] - 行业关注AI能否攻克数学界未解难题（第五层问题） [43]