Alphaproof

搜索文档
Nature头条:AI大模型已达国际数学奥赛金牌水平
生物世界· 2025-07-25 15:54
国际数学奥林匹克竞赛,是全球顶尖中学生智力角逐的最高殿堂,其题目之难,往往令普通人望而却步。 然而,人工智能 (AI) 正在这个领域创造历史。 撰文丨王聪 编辑丨王多鱼 排版丨水成文 近日,国际顶尖学术期刊 Nature 在其官网头条报道了 人工智能 (AI) 取得一项新成就—— 大语言模型 首次在国际数学奥林匹克竞赛中达到金牌水平 。 曾经被认为需要"人类顶级智慧"才能驾驭的 国际数学奥林匹克竞赛 (IMO) ,如今迎来了强大的 AI 挑战 者 。Google DeepMind 和 OpenAI 的最新大模型,首次在这项顶级数学竞赛中展现了与人类金牌选手比 肩的实力! 此外,这项突破的深远意义远超竞赛本身: 1、AI 能力的证明 : 它有力地证明了大语言模型 (LLM) 能够处理极其复杂、需要深度逻辑思维和抽象 推理的任务,而不仅仅是文本生成或模式识别。 2、教育与研究的新工具 : 此类 AI 可以作为强大的助手,帮助学生学习高等数学、启发解题思路,甚至协 助数学研究人员探索新的猜想和定理。 3、通往 AGI 之路的里程碑 : 解决奥林匹克数学竞赛金牌级别的数学问题,需要多方面的认知能力组合, 这无疑是通往 ...
全球首个IMO金牌AI诞生!谷歌Gemini碾碎奥数神话,拿下35分震惊裁判
首席商业评论· 2025-07-23 12:02
谷歌DeepMind在IMO竞赛中的突破 - 谷歌DeepMind的Gemini Deep Think模型在IMO竞赛中破解5道题,获得35分(满分42分),达到金牌标准[3][4][21] - 该模型在4.5小时内完成解题,使用纯自然语言(英语)进行端到端推理,无需形式语言翻译[5][25] - 这是首个获得IMO组委会官方认证的金牌级别AI系统[6][7] IMO竞赛背景与AI参与情况 - IMO是数学界最高级别竞赛,每年吸引全球顶尖学生参与,需在4.5小时内解决6道深度数学问题[10][11] - 只有前8%的选手能获得金牌[12] - 2024年AlphaProof和AlphaGeometry 2破解4题获28分,达到银牌水平[16][18] Gemini Deep Think的技术创新 - 采用增强推理模式Deep Think,结合并行思考技术同时探索多种解题路径[29][30] - 通过新颖的强化学习训练,利用多步推理、问题解决和定理证明数据提升能力[31] - 团队提供高质量解决方案集和IMO解题技巧,优化模型表现[33] 解题过程与数学方法 - 第一题解析几何:通过设定引理和定理,证明阳光线数量只能是0、1或3条[37][41][42] - 第二题平面几何:分五步证明,包括确定旁心、求角度、引入辅助点等[44] - 第三题函数分析:通过分类和上下界证明确定最小实数常数c=4[47][50][51] - 第四题数论:通过五步分析确定序列起始值的限制条件[54][55][56][58] - 第五题组合博弈:通过离散化策略和蓄力策略分析胜负条件[64][65] 团队与技术负责人 - 项目由Thang Luong领导,他是Google DeepMind高级主任研究员,斯坦福大学博士[71][72] - Thang Luong在机器翻译、语言模型和视觉模型领域有开创性贡献,曾开发AlphaGeometry项目[72][73] 行业影响与未来展望 - 该突破显示AI在数学推理领域的重大进展,结合自然语言与严谨推理能力[76][77] - 谷歌认为这类AI将成为数学家、科学家和工程师的重要工具[77] - 该技术方向被视为通往AGI道路上的重要里程碑[78] OpenAI与谷歌的对比 - OpenAI此前宣称获得IMO金牌但未经官方认证,谷歌结果获得IMO官方认可[6][81] - OpenAI模型未使用形式语言但依赖外部评委评分,谷歌采用端到端自然语言推理[25][88] - 两家公司在方法上各有侧重,但谷歌的官方认证结果更具权威性[95]
“深层思维”宣布人工智能测试得分达国际数学奥赛金牌水平
新华社· 2025-07-22 15:30
人工智能模型性能突破 - 谷歌旗下"深层思维"公司高级版"双子座"模型在国际数学奥林匹克竞赛(IMO)测试中获35分(总分42分),达到金牌水平[1] - 模型成功解答2025年竞赛6道题目中的5道,解题方案获官方认证且被评价为"清晰、精确"[1] - 相比2024年AlphaProof与AlphaGeometry 2组合28分(银牌水平)的表现,得分提升25%[2] 技术实现进展 - 高级版"双子座"直接根据自然语言描述解题,无需人工翻译为计算机语言,突破去年技术限制[2] - "深度思考"模式采用并行思维技术,可同时探索多种解决方案路径而非单一线性思路[2] - 解题时间从去年2-3天缩短至竞赛标准时限(4.5小时/天×2天),实现与人类选手同等条件[2] 行业应用验证 - IMO竞赛成为衡量AI解决复杂数学问题能力的权威标准,涉及代数/组合数学/几何/数论四大领域[1] - 官方评分员确认AI解题方案"大多数易于理解",表明技术已具备可解释性[1] - 公司公开全部解题方案,为行业提供可验证的技术基准[1]
DeepMind夺得IMO官方「唯一」金牌,却成为OpenAI大型社死现场
机器之心· 2025-07-22 12:25
技术突破 - 谷歌DeepMind新一代Gemini进阶版模型在IMO竞赛中达到金牌得主水平,成功解决六道超高难度试题中的五道,拿下35分(满分42分),成为首个获得奥赛组委会官方认定为金牌的AI系统[2] - 该系统首次证明人工智能无需依赖专业编程语言,仅通过自然语言理解即可攻克复杂数学难题[3] - 突破来自Gemini Deep Think增强型推理系统,采用并行思维技术,同时探索多种可能解决方案[6] - 模型以自然语言进行端到端运行,直接从官方问题描述中生成严格数学证明,并在比赛标准的4.5小时时限内完成任务[7] 行业对比 - 谷歌DeepMind成绩远超2024年表现,当时AlphaProof和AlphaGeometry系统组合解决六个问题中的四个,荣获银牌[4] - 谷歌谨慎发布方式赢得AI界广泛赞誉,与竞争对手OpenAI对类似成绩处理方式形成鲜明对比[11] - OpenAI因绕过官方竞赛规则提前官宣遭到批评,被指缺乏可信度[10][15] - DeepMind选择等待官方认可再发布成绩,赢得金牌和尊重,而OpenAI因时机与方式问题引发争议[25] 技术方法 - OpenAI研究科学家表示谷歌方法与其不同,说明存在多种研究方向[17] - OpenAI专注于不受Lean限制的自然语言通用推理研究,因此婉拒IMO基于Lean语言的正式比赛邀请[18] - OpenAI在通用推理方面取得进展,包括收集、整理和训练高质量数学数据,未使用RAG或任何工具[19] - OpenAI提交的每份证明由三位外部IMO奖牌获得者评分并获得一致正确性认可,证明已公开发布供验证[20][21] 行业影响 - 这场AI登上数学奥林匹克舞台的较量不仅是技术竞赛,更是关于规范、节奏与合作精神的展示[25] - 在通往AGI的路上,除了技术力,如何与人类社会的规则与价值观对齐正变得愈发重要[25] - AI推理能力正在快速发展,IMO结果确实表明了这一点[24]
全球首个IMO金牌AI诞生!谷歌Gemini碾碎奥数神话,拿下35分震惊裁判
猿大侠· 2025-07-22 11:33
转自:新智元 编辑:编辑部 【导读】 谷歌DeepMind奥数夺金了,得到IMO官方认证!新模型Gemini Deep Think仅用自然语言,在4.5小时攻克了5题,拿下35分。这次,具体解题过程也一并公开了。 今天,谷歌DeepMind正式官宣拿下IMO金牌! 他们凭借Gemini Deep Think(高阶版),一个通用模型,成功破解前5题,斩获35分(满分42分)。 而且, AI在极限4.5小时之内,就达到了IMO金牌标准。 最最重要的是,Gemini仅用纯自然语言——英语完成了解题。 与 OpenAI 不同的是,这一结果得到了IMO组委会官方认证。 Demis Hassabis连发两弹,一再强调「谷歌模型是首个获得官方金牌级别认可的AI系统」。 谷歌DeepMind,正式摘金 作为数学界的奥林匹克,IMO自1959年以来每年举办一次,每年吸引了全球各界优秀的学生参与。 参赛者需在4.5小时内解决6道极具深度的数学问题,涵盖代数、几何、组合数学和数论。 而且只有排名前8%的选手才能摘得金牌,象征着无上的学术荣耀。 2024年,AlphaProof和AlphaGeometry 2破解了6题中的4题,获得 ...
陶哲轩回应OpenAI新模型IMO夺金!GPT-5测试版也曝光了
量子位· 2025-07-20 10:49
OpenAI新模型在IMO竞赛中的表现 - OpenAI最新模型在2025年国际数学奥林匹克竞赛(IMO)中达到金牌水平,成功解决6道题中的5道,获得35分(满分42分),超过金牌线[1][2][11] - 模型在完全模拟人类考试条件下完成测试,包括两场各4.5小时的考试,不借助任何工具或联网,仅通过自然语言写出证明过程[9][11] - 评分过程由三位前IMO奖牌获得者独立完成,需达成一致意见才确定最终分数[13] 技术突破与模型特点 - 该模型并非依赖特定任务方法,而是在通用强化学习和测试时计算扩展方面取得突破[4] - 突破了传统强化学习依赖明确可验证奖励的范式,能够像人类数学家一样构建多页证明[14] - 唯一未解决的第六题属于组合数学领域,与去年谷歌未完成的两道题类型相同[18][19] GPT-5相关动态 - OpenAI员工透露GPT-5即将发布,但IMO金牌模型为实验性研究,暂无发布计划[3] - 第三方开源代码中出现"GPT-5-reasoning-alpha-2025-07-13"字样,随后被删除,结合OpenAI发布前安全测试的惯例,推测GPT-5临近发布[6][8] 行业反应与专家评论 - 数学界顶尖学者陶哲轩指出缺乏统一测试标准,难以公平比较AI能力,强调需预先公布方法论[25][26] - 陶哲轩列举多项可能影响测试结果的因素,如资源分配、辅助工具使用及团队协作等[28][29][30][31][32] - 数学竞赛评测平台MathArena独立测试显示,其他模型如Gemini 2.5 Pro仅获13分(31%),远低于铜牌线19分[34][35][36] 历史对比与行业意义 - 从GSM8K(0.1分钟)到IMO(约100分钟),AI在需要长时间深度思考的数学问题上进步显著[14] - 研究员Alexander Wei表示,2021年预测2025年MATH基准测试仅达30%,实际进展远超预期[39] - DeepMind研究员Archit Sharma的删除推文引发猜测,可能暗示Google模型也达到类似水平[20][21] 公开资料与后续关注 - OpenAI公开了AI解题过程供查阅[42] - MathArena团队期待OpenAI模型发布后进行独立评估[37]
“AI登月时刻”,OpenAI模型摘取奥数金牌
虎嗅· 2025-07-20 09:41
OpenAI在数学竞赛中的突破 - OpenAI的通用推理模型在2025年国际奥林匹克数学竞赛(IMO)中达到金牌水平,在禁用工具和互联网的条件下,以自然语言撰写证明,完整解出6题中的5题,最终得分35/42分[1] - 该模型是通用推理模型而非专门解数学题的系统,不依赖标准答案或实时打分的奖励信号,而是通过通用推理和新技术在长时间复杂过程中完成正确推理[1] - 模型由三位前IMO奖牌得主独立批改并取得一致意见后定分,证明其严谨性[1] OpenAI的技术领先地位 - OpenAI目前拥有最强的编程及数学模型,在AtCoder世界巡回赛2025决赛中仅次于人类编程奇才Psyho,测试表现优于o3 pro模型[2] - 该成就使OpenAI再次碾压DeepMind、Anthropic、Grok等竞争对手,并拉开与中国开源模型的差距[3] - OpenAI内部正在测试全新推理模型,奥数金牌成绩仅为小试牛刀,正式发布预计在GPT-5之后[4] 技术方法与意义 - 模型突破传统强化学习范式,不依赖狭窄的任务特化技巧,而是通过通用强化学习与"测试时计算"扩展的新技术实现[7] - 模型未针对IMO做专项训练,仅持续训练通用模型,所有证明均为自然语言撰写,未使用定制化评测框架[7] - 该模型在推理时间跨度和创造性思考上取得重大进展,从GSM8K(0.1分钟)到IMO(100分钟)逐步突破[5] 未来展望 - 从起步到奥数金牌水平仅用15个月,预计明年可用于数学定理生成和全新数学研究方法[11] - 市场预测人工智能在2030年前解决千禧年大奖难题的概率骤升至81%[12] - OpenAI科学家认为AI正接近在科学发现中发挥实质性作用的阶段,从略低于顶尖人类水平到略高于顶尖人类水平的差距巨大[28] GPT-5相关信息 - GPT-5即将发布,将采用实验性模型并融入未来模型采用的新研究技术[13] - GPT-5不会具备IMO金牌水平能力,但可能采用统一模型架构,用户可调整推理强度或智能等级[14][15] - GPT-5可能采用端到端强化学习(RL)进行训练,直接从原始输入学习最优策略,无需拆分子任务或设计中间模块[20] 行业影响 - OpenAI在经历Meta挖角后仍保持顶尖研究人才密度,此次突破向Meta展示其向超级人工智能跨越的决心[21] - 该成就由小团队完成,使用最近开发的新技术,对许多OpenAI研究人员也是惊喜,展示了前沿能力所在[29][30] - 不同于以往狭窄领域的AI系统,该模型具备更广泛的推理能力,远超竞赛题范围[10][24]
大模型IMO25数学竞赛成绩公布了
量子位· 2025-07-18 14:16
大模型数学能力评估结果 - Gemini 2.5 Pro以超30%的总成绩断崖式领先 超出第二名89% [1] - o3和o4-mini分别位列第二、三名 Grok 4得分仅11.9且成本比Gemini高22% [2] - 测试采用统一提示词模板与Open Proof Corpus评估标准 最大Token限制64000 [5][6] 评估方法与流程 - 每个模型生成32个初始回答 筛选自评最优的四个答案取平均分作为最终成绩 [7][8] - 四名IMO级别人类评委匿名双评 每题满分7分 评分界面统一 [10][11] - 模型普遍在7分制下得3-4分 与人类表现差异显著 [12] 题目类型与模型表现 - 六道题目涵盖解析几何、平面几何、数论、博弈论和组合数学 [16][18][22][24][25] - 平面几何题(第2题)全员低分 Grok 4仅得4%(0.28分) [26][27] - 组合数学题(第6题)全员零分 几何与图形相关题目表现最差 [26][28] - 第四题模型方法接近人类但存在逻辑失误 第五题能识别策略但无法证明 [29] 模型能力演进观察 - 相比早期评估 模型过度优化答案格式的行为显著减少 [13] - Gemini在USAMO中编造定理的问题在IMO测试中大幅改善 [14] - Grok 4多数未选中答案仅陈述结果而无解释 表现低于预期 [14]
我不给人做产品,给 Agent 做 | 42章经
42章经· 2025-06-29 22:48
Agent Infra市场机会 - Agent Infra被视为下一个投资热点 未来Agent数量将达到SaaS的几千倍[1][2] - 现有互联网基础设施不适合AI使用 需要为Agent重构[2] - Agent Infra市场规模巨大 类比AWS级别的机会[17] - 互联网上40%流量来自机器人 但大模型流量仅占0.1% 未来可能有10万倍增长空间[23][56] Agent与人类差异 - 交互方式:Agent通过文本和多模态后端交互 人类依赖前端界面[5] - 学习方式:Agent可同时执行任务和学习 人类无法并行[5] - 工作模式:Agent多线程并行 人类单线程按流程执行[6][7] - 责任界定:人类可负责自身行为 Agent需要安全边界[8][10] - 执行状态:Agent需保持多任务状态 人类天然不需要[8] Agent浏览器特性 - 云端化运行 持续工作不需休息[24] - 无前端界面 直接后端交互[25] - 设计反馈循环 支持自主迭代[26] - 安全机制:本地处理账号密码 不泄露给大模型[28][29] - 支持多线程任务连续性 避免资源浪费[31] Agent Infra技术架构 - 三层架构:Runtime层(浏览器内核) Agentic层(交互控制) Knowledge层(领域knowhow)[32] - Runtime层解决网页拉取和渲染 Agentic层控制AI与网页交互[33] - 必须同时构建Runtime和Agentic层才能实现完整功能[35] - Browserbase估值3亿美元 专注Runtime层[22][34] Agent Infra细分领域 - 主要环境:Coding环境(逻辑执行) Browser环境(网页交互)[37] - 工具类:身份认证 支付能力 通讯工具等可重做[38] - 场景切入:旅游Agent需CRM 搜索 支付等工具[40] - 数学环境:公式执行器 定理检索等工具[42] - 物理环境:传感器 具身智能 空间智能等[38] 市场发展阶段 - 类比22年AI Coding 当前Browser Use处于早期[44] - 全球软件开发市值3-4万亿美元 AI Coding仅100亿 增长空间大[47] - 互联网活动通过AI提升5%效率将创造巨大市场[48] - 差异化关键:深耕细分场景 抢占99.9%未开发市场[56] Agent产品设计核心 - 反馈循环设计比上下文或数据更重要[50] - 人类知识可能非必要 Agent可通过强化学习自主迭代[51][52] - AlphaProof案例:仅用+1/-1奖励机制 不参考人类解法即获奥数银牌[52] - 未来范式:Agent通过环境体验获取真实反馈 自主进化[53]
AI成为数学家得力助手还要多久
科技日报· 2025-06-17 09:18
AI在数学领域的应用进展 - 美国国防高级研究计划局启动"指数性数学"计划 旨在开发提升数学研究效率的AI"合著者"系统 [1] - 新一代大型推理模型如OpenAI的o3和Anthropic的Claude 4 Thinking展现进步 在美国数学邀请赛中表现接近优秀高中生水平 [2] - 谷歌"深度思维"的AlphaProof系统结合语言模型与AlphaZero 取得与国际数学奥林匹克竞赛银牌得主相当的成绩 [2] - 谷歌AlphaEvolve模型在多个长期未解数学与计算难题上找到优于人类现有方案的解法 [2] AI当前在数学研究中的局限性 - 大型语言模型在FrontierMath测试中几乎集体"交白卷" 表明其面对全新高难度题目时能力不足 [3] - AI在解决"P vs NP"和"黎曼猜想"等重大数学难题时仍力不从心 竞赛题与真正数学研究存在差异 [2] - AI缺乏真正的创造力 能协助发现路径但无法实现真正的创新与突破 [8] AI处理数学问题的技术突破 - 加州理工学院团队开发"超级步骤"方法 将多个步骤打包以应对"超长推理链"问题 [5] - 该方法在安德鲁斯-柯蒂斯猜想上取得突破 推翻了一个40年来被广泛引用的"反例" [5] - "压缩路径"思路适用于所有需要推理链条的领域 有望推动数学研究新突破 [6] AI辅助数学研究的创新方式 - AlphaEvolve通过LLM生成并改进解题代码 配合评估模型提出比人类更优的解法 [7] - Meta的PatternBoost AI系统可生成相似数学概念 帮助激发研究灵感 [7] - AI工具可作为人类直觉的"侦察兵" 协助发现新路径和避开错误方向 [8]