AI七个月突破数学家“围剿”反超人类!14位数学家深挖原始推理token:不靠死记硬背靠直觉
量子位·2025-06-09 15:29
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 从只能答对 2% 的题目,到在超难数学题集中刷下 22% 得分,甚至超过人类团队平均水平,大模型需要多长时间? 现在,令数学家们都惊讶的结果已经尘埃落定: 发生在大名鼎鼎的"专为为难大模型而生的" FrontierMath 基准测试上的这一幕,在激起热议同时,也引发了新的思考: 他们发现: o3-mini-high绝非靠死记硬背解题,相反,它表现出了极强的知识储备; 7个月 。 同时,他们也挖掘出了大模型当前的局限性,比如,缺乏创造力和理解深度。 大模型们是怎么做到的? 官方是这样总结的: FrontierMath:包含300个数学问题,难度范围覆盖本科高年级到菲尔兹奖得主都说难的水平。 最新进展是,FrontierMath官方Epoch AI邀请14位数学家,深入分析了o3-mini-high在应对这些数学难题时产生的 29条原始推理记录 。 o3-mini-high的推理更多依靠直觉,而非精确的证明。 相反,数学家们发现,即使题目故意掩盖了解决问题所需的技巧,o3-mini-high依然能够很好地利用正确的定理来获取进展—— 在大概三分之二的问题上,o ...