Workflow
FrontierMath
icon
搜索文档
AI七个月突破数学家“围剿”反超人类!14位数学家深挖原始推理token:不靠死记硬背靠直觉
量子位· 2025-06-09 15:29
大模型数学能力进展 - 7个月内大模型在FrontierMath测试中正确率从2%提升至22%,超过人类团队平均水平 [1][37] - FrontierMath包含300个数学问题,难度覆盖本科高年级至菲尔兹奖级别 [1] 模型推理机制特征 - o3-mini-high依赖直觉而非严谨证明,29条推理记录中13次成功但存在"作弊式"跳跃推理 [5][13][15] - 模型具备极强知识储备,三分之二问题中数学文献调用评分达3/5分以上 [7][10] - 采用非正式推理风格,初始思路表述粗糙且跳过关键步骤 [14][16] 当前技术局限性 - 缺乏创造力与理解深度,仅能复述知识而无法创新应用 [29][30] - 75%推理记录存在幻觉现象,包括术语错误和虚构引用 [35] - 过度依赖固定解题模式,新思路应用能力弱于复杂计算 [31][32][33] 行业影响与未来挑战 - 模型已能解决部分博士级数论问题,表现超越多数顶尖研究生 [41][42] - FrontierMath难度持续升级至第4级(专业数学家挑战级别) [38] - 行业关注AI能否攻克数学界未解难题(第五层问题) [43]
40位数学家组成8队与o4-mini-medium比赛,6队败北
机器之心· 2025-05-24 11:13
AI与人类数学能力对比 - AI模型o4-mini-medium在FrontierMath基准测试中以6:2的比分击败了8支人类数学专家团队中的6支 [1] - o4-mini-medium在竞赛中得分22%,高于人类团队平均分19%,但低于所有团队综合得分35% [7] - Epoch AI预测AI很可能在年底前明确超越人类数学能力 [27] FrontierMath基准测试设计 - 测试包含300道题,难度从本科生水平到菲尔兹奖级别 [3] - 竞赛选取23道题(7道基础题+16道进阶题),涵盖拓扑学、代数几何等四个子类 [16] - 评分机制:进阶题每题2分,基础题1分,每个领域至少答对一题额外加1分 [16] - 题目难度分为3级,竞赛中普通题为1-2级,高级题均为3级 [24] 人类参赛者表现分析 - 40名参赛者(数学博士或竞赛获奖者)组成8个团队,每组4-5人 [11] - 人类团队解题正确率在13%-26%之间,平均19% [19] - 若考虑任何一支团队答对即算人类答对,人类正确率可提升至35% [21] - 参赛者在最喜欢的测试题上平均花费40分钟 [28] 测试结果解读 - 调整难度权重后,人类平均得分约30%,"多次尝试"方法下可达52% [24] - AI解题时间(5-20分钟/题)显著短于人类 [27] - 人类在长期扩展行为上优于AI,表现能持续提升 [29] - 当前测试可能低估人类能力,更多时间可能提升表现 [27] 测试局限性 - 参赛者不能完全代表前沿数学水平 [10] - 竞赛题目仅为FrontierMath的不具代表性子集 [8] - 人类基准定义模糊,估计值在30%-50%之间 [8][20] - 竞赛形式限制了人类表现,如时间压力等因素 [27]
AI观察|面对“刷分”,大模型测试集到了不得不变的时刻
环球网· 2025-05-12 17:00
自2023年3月GPT-4发布,引发了市场社会对于AI的火爆关注,由GPT-4带动的AI测试集MMLU犹如手机评测界的"安兔兔",在大模型测试中备受关注。以 MMLU为主的各种衍生集,比如MMLU-Pro、MMLU-CF等测试集,成为之后雨后春笋发展的各类大模型发展中的必经之路。 既然是发布上市的"必经之路",围绕如何通过"测试集"就成为部分AI大模型的重中之重,由此也引发出AI大模型的"作弊",即围绕特点大模型测试集进行主 动"刷分",以谋求在该测试集上得到较高的排名。结果是,一个开发者做的模型把在这些测试集上的表现当作重要考量目标,那只要足够长的训练后,就一 定可以得到很好的成绩。但与此同时,和这些训练集内容无关的问题,回答质量就不如人意。 很现实的影响是,目前主流大模型厂商对这些已经被"作弊"弄得千疮百孔的测试集,已经失去兴趣,开始谋求新的AI测试工具。上文中提到谷歌对大模型通 过游戏测试表现出如此高的兴趣,这也符合逻辑。 【环球网科技报道 记者 秦耳】近日,有关"人类最后的测试"这一大模型测试集,在AI领域引发热议。起因是在OpenAI担任研究科学家的姚顺雨近日写了一 篇他对于AI大模型发展思考的文章 ...