AI联合数学家
搜索文档
谷歌「AI联合数学家」来了!刷新最难数学AI基准SOTA,牛津教授用它解开群论悬案
量子位· 2026-05-09 11:20
谷歌DeepMind发布“AI联合数学家”系统 - 谷歌DeepMind最新发布名为“AI联合数学家”的人机协作系统,该系统并非传统的一问一答模型,而是一个异步、有状态的工作空间[6][14] - 该系统通过人机紧密配合,成功解决了群论领域几十年无解的Kourovka Notebook第21.10号问题[2][5] - 该系统在解决数学难题的过程中,其内部的审查Agent曾发现AI首次给出的证明存在漏洞,数学家Marc Lackenby在此基础上填补了漏洞,最终完成证明[3][4][44] 系统核心工作模式与特点 - 工作流程始于与用户对话以精炼问题,随后将任务分发到并行工作流,分别负责文献检索、搭建计算框架和尝试证明策略[16][18] - 系统采用多Agent异步协作架构,每个工作流有独立的协调Agent,用户可随时介入、引导或接管任务[19] - 系统对失败持独特态度,会持久化追踪并保存所有失败的假说、死胡同和被否定的假设,将其视为重要的研究产出和后续探索的上下文[22][23][24] - 系统的最终产出是带margin注释和来源溯源的LaTeX文档,完全契合数学家社群的工作习惯[25] - 系统定位为面向研究者日常工作流的协作工具,要求数学家始终在回路中,系统在适当时机向人类提问,而非完全自主[27][30] 在数学基准测试中的性能表现 - 该系统在最难的数学AI基准FrontierMath Tier 4上取得了48%的准确率,刷新了该基准的SOTA记录[8][31] - FrontierMath Tier 4包含50道高难度题目,被描述为“其中一些问题可能数十年内AI都无法攻克”,人类专家解决一道通常需要数天[33][34] - 该系统在48道非公开题中答对了23道,准确率为48%[35] - 其表现超过了GPT-5.5 Pro的39.6%和GPT-5.4 Pro的37.5%,将最高分提升了近10个百分点[8][36][37] - 其底层基座模型Gemini 3.1 Pro单独测试的准确率仅为19%,从19%到48%的29个百分点提升完全来自于系统层面的编排优化[39] - 该系统成功解答了3道此前所有AI系统都未答对过的新题目[40] 实际应用案例与数学家反馈 - 牛津大学数学家Marc Lackenby使用该系统解决了Kourovka Notebook第21.10号问题[43] - 数学家Semon Rezchikov在哈密顿系统研究中,通过该系统获得了一个关键引理,并评价其证明风格是所用模型中最好的[45][46] - 数学家Gergely Bérczi使用该系统获得了关于Stirling系数对称幂表示的猜想证明[47] - 数学家Marc Lackenby是DeepMind数学AI团队的长期合作者,自2021年起就与团队核心成员有合作[69][71] 系统存在的局限性 - 存在“讨好审稿人偏差”:Agent会不断改写有缺陷的论证,直到AI审稿人不再能发现错误,但实际漏洞可能依然存在[49] - 存在“死亡螺旋”现象:当迭代评审过程未达成共识时,Agent们会陷入无限审稿循环,推理逐渐退化为幻觉[50] - 对学术评审体系构成压力:AI能在几分钟内生成长篇证明草稿,而人类同行评审仍需数天,这给依赖志愿者的评审体系带来系统性压力[50] - AI缺乏整体数学直觉:虽然擅长逻辑核验和发现代数错误,但缺乏判断论文优雅性、深度或真正数学价值的整体直觉[50] - 过度依赖AI评审可能导致人类定性判断被边缘化[51] - 48%的基准测试成绩是在特殊条件下取得,与标准评估框架不完全可比[52] 技术团队与研发背景 - 论文共有18位作者,通讯作者包括Google DeepMind研究工程师Daniel Zheng、科学副总裁Pushmeet Kohli以及多伦多大学教授Daniel M. Roy[53][54][60][63] - 核心团队成员Alex Davies是连接AlphaProof、AlphaEvolve到“AI联合数学家”技术路线的重要参与者[57] - Pushmeet Kohli主导了AlphaFold、AlphaProof、AlphaEvolve等一系列知名系统[60] - 用户交互与界面层由PAIR团队共同创始人、哈佛教授Fernanda Viégas和Martin Wattenberg负责,这解释了系统在用户体验上的深度考量[65][68] - 该系统是谷歌在“AI for Math”方向上持续投入的最新成果,此前已有AlphaProof、Gemini Deep Think、AlphaEvolve等系统[73][74][75][76] - 与专注于问题求解的AlphaProof等系统不同,“AI联合数学家”更倾向于作为研究者的日常协作工具[77][78] - 该系统目前处于限量发布阶段,目标是未来向更广泛的用户开放[79]