Workflow
世界顶尖数学家在测试中震惊地发现,人工智能模型已经接近数学天才了
36氪·2025-06-09 07:49

AI数学推理能力突破 - o4-mini在伯克利数学会议上成功解决教授级难题,被评价为"接近数学天才"[1] - 该模型由OpenAI训练,采用轻量化架构和人类强化学习,推理能力显著优于早期LLM[1] - 在未训练过的300道数学题测试中,传统LLM正确率不足2%,而o4-mini突破此局限[2] 基准测试进展 - FrontierMath项目分四个难度级别测试,o4-mini在2025年4月已能解决20%高难度问题[3] - 第四级别测试采用严格保密协议,问题设计者每道未解题可获得7500美元奖励[3][4] - 30位数学家分组设计挑战题,最终仅10题难倒AI,显示模型解决博士级问题的能力[4][5] 技术表现细节 - o4-mini解题过程展现类人推理:先检索文献,构建简化版问题,再完成完整证明[5] - 速度优势明显,几分钟完成人类需数周的工作,被比作"优秀研究生+"水平[6] - 输出风格具有高度自信,学者担忧其"威吓证明"可能影响结果可信度[6] 行业影响与未来 - 数学家角色可能转向问题提出和AI协作,类似教授指导研究生的模式[6] - 第五层级问题(人类无法解决的难题)将重塑数学研究范式[6] - 高等教育需加强创造力培养以应对AI冲击,保持学科传承价值[6][7]