FrontierMath

搜索文档

AI七个月突破数学家“围剿”反超人类！14位数学家深挖原始推理token：不靠死记硬背靠直觉

量子位· 2025-06-09 15:29

大模型数学能力进展 - 7个月内大模型在FrontierMath测试中正确率从2%提升至22%，超过人类团队平均水平 [1][37] - FrontierMath包含300个数学问题，难度覆盖本科高年级至菲尔兹奖级别 [1] 模型推理机制特征 - o3-mini-high依赖直觉而非严谨证明，29条推理记录中13次成功但存在"作弊式"跳跃推理 [5][13][15] - 模型具备极强知识储备，三分之二问题中数学文献调用评分达3/5分以上 [7][10] - 采用非正式推理风格，初始思路表述粗糙且跳过关键步骤 [14][16] 当前技术局限性 - 缺乏创造力与理解深度，仅能复述知识而无法创新应用 [29][30] - 75%推理记录存在幻觉现象，包括术语错误和虚构引用 [35] - 过度依赖固定解题模式，新思路应用能力弱于复杂计算 [31][32][33] 行业影响与未来挑战 - 模型已能解决部分博士级数论问题，表现超越多数顶尖研究生 [41][42] - FrontierMath难度持续升级至第4级（专业数学家挑战级别） [38] - 行业关注AI能否攻克数学界未解难题（第五层问题） [43]

40位数学家组成8队与o4-mini-medium比赛，6队败北

机器之心· 2025-05-24 11:13

AI与人类数学能力对比 - AI模型o4-mini-medium在FrontierMath基准测试中以6:2的比分击败了8支人类数学专家团队中的6支 [1] - o4-mini-medium在竞赛中得分22%，高于人类团队平均分19%，但低于所有团队综合得分35% [7] - Epoch AI预测AI很可能在年底前明确超越人类数学能力 [27] FrontierMath基准测试设计 - 测试包含300道题，难度从本科生水平到菲尔兹奖级别 [3] - 竞赛选取23道题(7道基础题+16道进阶题)，涵盖拓扑学、代数几何等四个子类 [16] - 评分机制：进阶题每题2分，基础题1分，每个领域至少答对一题额外加1分 [16] - 题目难度分为3级，竞赛中普通题为1-2级，高级题均为3级 [24] 人类参赛者表现分析 - 40名参赛者(数学博士或竞赛获奖者)组成8个团队，每组4-5人 [11] - 人类团队解题正确率在13%-26%之间，平均19% [19] - 若考虑任何一支团队答对即算人类答对，人类正确率可提升至35% [21] - 参赛者在最喜欢的测试题上平均花费40分钟 [28] 测试结果解读 - 调整难度权重后，人类平均得分约30%，"多次尝试"方法下可达52% [24] - AI解题时间(5-20分钟/题)显著短于人类 [27] - 人类在长期扩展行为上优于AI，表现能持续提升 [29] - 当前测试可能低估人类能力，更多时间可能提升表现 [27] 测试局限性 - 参赛者不能完全代表前沿数学水平 [10] - 竞赛题目仅为FrontierMath的不具代表性子集 [8] - 人类基准定义模糊，估计值在30%-50%之间 [8][20] - 竞赛形式限制了人类表现，如时间压力等因素 [27]

Artificial Intelligence

数学推理能力

Artificial Intelligence

o4 - mini - medium

FrontierMath

Gemini 2.5 Pro

Artificial Intelligence

数学推理能力

Artificial Intelligence

o4 - mini - medium

FrontierMath

Gemini 2.5 Pro

AI观察|面对“刷分”，大模型测试集到了不得不变的时刻

环球网· 2025-05-12 17:00

自2023年3月GPT-4发布，引发了市场社会对于AI的火爆关注，由GPT-4带动的AI测试集MMLU犹如手机评测界的"安兔兔"，在大模型测试中备受关注。以 MMLU为主的各种衍生集，比如MMLU-Pro、MMLU-CF等测试集，成为之后雨后春笋发展的各类大模型发展中的必经之路。既然是发布上市的"必经之路"，围绕如何通过"测试集"就成为部分AI大模型的重中之重，由此也引发出AI大模型的"作弊"，即围绕特点大模型测试集进行主动"刷分"，以谋求在该测试集上得到较高的排名。结果是，一个开发者做的模型把在这些测试集上的表现当作重要考量目标，那只要足够长的训练后，就一定可以得到很好的成绩。但与此同时，和这些训练集内容无关的问题，回答质量就不如人意。很现实的影响是，目前主流大模型厂商对这些已经被"作弊"弄得千疮百孔的测试集，已经失去兴趣，开始谋求新的AI测试工具。上文中提到谷歌对大模型通过游戏测试表现出如此高的兴趣，这也符合逻辑。【环球网科技报道记者秦耳】近日，有关"人类最后的测试"这一大模型测试集，在AI领域引发热议。起因是在OpenAI担任研究科学家的姚顺雨近日写了一篇他对于AI大模型发展思考的文章 ...

Artificial Intelligence

AGI（通用人工智能）

Artificial Intelligence

GPT - 4

Gemini 2.5 Pro

MMLU

Artificial Intelligence

AGI（通用人工智能）

Artificial Intelligence

GPT - 4

Gemini 2.5 Pro

MMLU