FrontierMath

搜索文档
AI七个月突破数学家“围剿”反超人类!14位数学家深挖原始推理token:不靠死记硬背靠直觉
量子位· 2025-06-09 15:29
大模型数学能力进展 - 7个月内大模型在FrontierMath测试中正确率从2%提升至22%,超过人类团队平均水平 [1][37] - FrontierMath包含300个数学问题,难度覆盖本科高年级至菲尔兹奖级别 [1] 模型推理机制特征 - o3-mini-high依赖直觉而非严谨证明,29条推理记录中13次成功但存在"作弊式"跳跃推理 [5][13][15] - 模型具备极强知识储备,三分之二问题中数学文献调用评分达3/5分以上 [7][10] - 采用非正式推理风格,初始思路表述粗糙且跳过关键步骤 [14][16] 当前技术局限性 - 缺乏创造力与理解深度,仅能复述知识而无法创新应用 [29][30] - 75%推理记录存在幻觉现象,包括术语错误和虚构引用 [35] - 过度依赖固定解题模式,新思路应用能力弱于复杂计算 [31][32][33] 行业影响与未来挑战 - 模型已能解决部分博士级数论问题,表现超越多数顶尖研究生 [41][42] - FrontierMath难度持续升级至第4级(专业数学家挑战级别) [38] - 行业关注AI能否攻克数学界未解难题(第五层问题) [43]
40位数学家组成8队与o4-mini-medium比赛,6队败北
机器之心· 2025-05-24 11:13
AI与人类数学能力对比 - AI模型o4-mini-medium在FrontierMath基准测试中以6:2的比分击败了8支人类数学专家团队中的6支 [1] - o4-mini-medium在竞赛中得分22%,高于人类团队平均分19%,但低于所有团队综合得分35% [7] - Epoch AI预测AI很可能在年底前明确超越人类数学能力 [27] FrontierMath基准测试设计 - 测试包含300道题,难度从本科生水平到菲尔兹奖级别 [3] - 竞赛选取23道题(7道基础题+16道进阶题),涵盖拓扑学、代数几何等四个子类 [16] - 评分机制:进阶题每题2分,基础题1分,每个领域至少答对一题额外加1分 [16] - 题目难度分为3级,竞赛中普通题为1-2级,高级题均为3级 [24] 人类参赛者表现分析 - 40名参赛者(数学博士或竞赛获奖者)组成8个团队,每组4-5人 [11] - 人类团队解题正确率在13%-26%之间,平均19% [19] - 若考虑任何一支团队答对即算人类答对,人类正确率可提升至35% [21] - 参赛者在最喜欢的测试题上平均花费40分钟 [28] 测试结果解读 - 调整难度权重后,人类平均得分约30%,"多次尝试"方法下可达52% [24] - AI解题时间(5-20分钟/题)显著短于人类 [27] - 人类在长期扩展行为上优于AI,表现能持续提升 [29] - 当前测试可能低估人类能力,更多时间可能提升表现 [27] 测试局限性 - 参赛者不能完全代表前沿数学水平 [10] - 竞赛题目仅为FrontierMath的不具代表性子集 [8] - 人类基准定义模糊,估计值在30%-50%之间 [8][20] - 竞赛形式限制了人类表现,如时间压力等因素 [27]
AI观察|面对“刷分”,大模型测试集到了不得不变的时刻
环球网· 2025-05-12 17:00
AI大模型测试集的现状与挑战 - 行业主流AI大模型已通过图灵测试 达到AGI标准 现有测试集无法准确评估快速迭代的大模型能力 [1] - 谷歌CEO公开庆祝Gemini 2 5 Pro通关经典游戏测试 显示头部企业对新型测试方式的探索 [3] - GPT-4发布后 MMLU测试集成为行业标准 但衍生出MMLU-Pro等变体导致测试集泛滥 [3] 现行测试集的核心问题 - 模型厂商针对特定测试集"刷分"现象严重 训练后成绩虚高 但实际应用表现不佳 [3] - 2024年9月后发布的o1 Sonnet-3 5等主流模型在MMLU测试中均获90-95分 缺乏区分度 [4] - OpenAI开发的FrontierMath测试集在数学领域展现差异化 GPT-4o正确率仅1% 而2025年o3模型达25% [5] 测试集信任危机与行业动向 - OpenAI被曝获取FrontierMath题库权限 测试公正性受质疑 丧失成为主流测试集机会 [5] - 谷歌通过游戏测试等非传统方式验证模型能力 反映头部企业已放弃现有测试体系 [3][4] - Scale AI与CAIS机构正合作开发新测试集 试图建立行业公认的第三方评估标准 [6] 新型测试方案的技术突破 - FrontierMath测试显示o3模型数学能力突飞猛进 正确率超其他模型十余倍 [5] - 游戏通关测试成为验证模型综合能力的新兴手段 谷歌Gemini 2 5 Pro率先实现突破 [3]