组合数学
搜索文档
45年数论猜想被GPT-5.2 Pro独立完成证明,陶哲轩:没犯任何错误
猿大侠· 2026-01-21 12:18
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI AI证明数学猜想,这次来真的了。 OpenAI最新模型GPT-5.2 Pro刚刚独立证明了一道埃尔德什猜想。 论证过程经菲尔兹奖得主陶哲轩验证成立,还被评价为"迄今为止最明确的第一类结果(AI主要贡献)"。 这道题是埃尔德什问题库中的第281号,由传奇数学家保罗·埃尔德什(Paul Erdős)与罗纳德·格雷厄姆(Ronald Graham)于1980年共同 提出,涉及同余覆盖系统与自然密度的深层关系。 45年来,这道题一直静静躺在问题库里,等待解答。 直到2025年1月17日,一位名叫Neel Somani的研究者把这道题扔给了GPT-5.2 Pro。 证明只用到GPT 5.2 Pro 埃尔德什问题网站已收录AI证明结果。 整个论证在无穷阿德尔整数环上展开,借助哈尔测度和点态遍历定理,结合紧致性论证完成了从逐点收敛到一致收敛的跃迁。 $$\bar{\Phi}=\operatorname*{lim}_{k\to\infty}\bar{\Phi}_{k}.$$ 按陶哲轩的话说,它是"Furstenberg对应原理"的一个变体,这是遍历理论与组合数学交叉领域的 ...
45年数论猜想被GPT-5.2 Pro独立完成证明,陶哲轩:没犯任何错误
36氪· 2026-01-19 15:29
事件概述 - OpenAI最新模型GPT-5.2 Pro独立证明了一道45年未解的埃尔德什猜想(第281号),论证过程经菲尔兹奖得主陶哲轩验证成立,并被评价为“迄今为止最明确的第一类结果(AI主要贡献)” [1][2] - 该问题由传奇数学家保罗·埃尔德什与罗纳德·格雷厄姆于1980年共同提出,涉及同余覆盖系统与自然密度的深层关系 [2] - 埃尔德什问题网站已收录AI证明结果 [3] 证明过程与技术细节 - 整个论证在无穷阿德尔整数环上展开,借助哈尔测度和点态遍历定理,结合紧致性论证完成了从逐点收敛到一致收敛的跃迁 [3] - 陶哲轩指出,该证明是“Furstenberg对应原理”的一个变体,但比通常的论证更依赖伯克霍夫定理 [6] - 陶哲轩亲自动手验证,将整套遍历论论证翻译成组合学语言,用哈代-利特尔伍德极大不等式替代伯克霍夫定理,重新推导后确认证明成立 [8] - 验证过程中,AI避免了极限交换或量词顺序等微妙错误,而前几代大语言模型几乎肯定会在这些地方栽跟头 [8] 替代证明与学术发现 - 一位网名KoishiChan的用户指出,该问题有更简单的解法,所需两个定理(达文波特-埃尔德什密度收敛定理和罗杰斯定理)早在1936年和1966年就已存在,组合后问题几乎是直接推论 [9] - 法国数学家特南鲍姆确认,只要满足上述两个经典结果,问题就能立即解决,但猜测问题表述可能在某个环节被改动过 [10] - 陶哲轩感慨罗杰斯定理没有得到应有的传播,它只出现在一本专著中,没有单独发表,文献引用寥寥无几 [10] - 目前该问题有两份不同的证明:一份来自GPT-5.2 Pro的遍历论路径,一份来自经典文献组合 [10] AI验证与行业评估 - 消息传开后,Gemini 3 Pro等AI模型交叉验证后表示证明没有问题 [11] - 陶哲轩指出,评估AI工具真实成功率时存在强烈的报告偏差,负面结果几乎不会被披露,这导致统计偏差 [11] - 一个开源项目系统记录前沿大语言模型在埃尔德什问题上的结果,数据显示这些工具在埃尔德什问题上的真实成功率大约只有百分之一到二 [12] - 考虑到问题库里有超过600道未解难题,百分之一到二的成功率仍然意味着一批数量可观且非平凡的AI贡献 [12]
45年数论猜想被GPT-5.2 Pro独立完成证明,陶哲轩:没犯任何错误
量子位· 2026-01-19 15:00
事件概述 - OpenAI最新模型GPT-5.2 Pro独立证明了数学界一道悬置45年的埃尔德什猜想(第281号问题),论证过程经菲尔兹奖得主陶哲轩验证成立,并被评价为“迄今为止最明确的第一类结果(AI主要贡献)” [2][3] - 该问题由传奇数学家保罗·埃尔德什与罗纳德·格雷厄姆于1980年共同提出,涉及同余覆盖系统与自然密度的深层关系 [4] - 证明结果已被埃尔德什问题网站收录 [8] AI证明过程与特点 - 证明由研究者Neel Somani于2025年1月17日提交给GPT-5.2 Pro完成,整个论证在无穷阿德尔整数环上展开,借助哈尔测度和点态遍历定理,结合紧致性论证完成了从逐点收敛到一致收敛的跃迁 [6][9] - 陶哲轩指出,该证明是“Furstenberg对应原理”的一个变体,但比通常的论证更依赖伯克霍夫定理 [12][13] - 陶哲轩特别指出,该证明避免了前几代大语言模型容易犯的极限交换或量词顺序等微妙错误 [15] - 为验证证明,陶哲轩亲自动手将整套遍历论论证翻译成组合学语言,用哈代-利特尔伍德极大不等式替代伯克霍夫定理重新推导,结论为证明成立 [16][17] 经典解法的意外发现 - 在讨论AI证明时,有用户发现该问题其实存在更简单的经典解法,所需两个定理(达文波特-埃尔德什密度收敛定理和罗杰斯定理)分别于1936年和1966年就已存在,将两者结合后该问题几乎是直接推论 [18][19] - 陶哲轩就此请教法国数学家特南鲍姆,后者确认了经典解法成立,但猜测问题的表述可能曾被改动过 [21] - 陶哲轩指出,罗杰斯定理因未单独发表且引用寥寥而传播不广,此前(2007年)五位顶尖专家在解决另一道埃尔德什问题时同样不知道该定理的存在 [22] - 目前该问题拥有两份不同的证明:一份来自GPT-5.2 Pro的遍历论路径,另一份来自经典文献组合 [22][23] AI数学能力的评估与行业现状 - 消息传开后,其他AI模型(如Gemini 3 Pro)交叉验证后也表示证明没有问题 [24] - 陶哲轩发出冷静提醒,指出评估AI工具真实成功率时存在强烈的报告偏差,负面结果几乎不会被披露 [27] - 他推荐了一个系统记录大语言模型在埃尔德什问题上正面和负面结果的开源项目,数据显示这些工具在埃尔德什问题上的真实成功率大约只有1%到2% [28][30] - 考虑到埃尔德什问题库中有超过600道未解难题,1%-2%的成功率仍意味着一批数量可观且非平凡的AI贡献 [31]
30年数学难题,AI仅6小时告破,陶哲轩:ChatGPT们都失败了
36氪· 2025-12-01 16:56
核心事件 - AI数学家“亚里士多德”在6小时内,100%独立破解了30年未解的埃尔德什问题124的简化版本,验证仅需1分钟,全程无人类辅助,被形容为数学界的“登月”时刻 [1][2][4] - 该AI由HarmonicMath公司开发,结合了强化学习、蒙特卡洛树搜索和Lean形式化语言,通过搜索上亿种证明策略输出可验证定理 [11][13] - 菲尔兹奖得主陶哲轩高度赞扬了这一成就,并指出数学界正迎来“vibe证明”的时代 [4][5][6] 技术突破细节 - 解决的问题是埃尔德什问题列表中的第124号问题,该问题在论文“Complete sequences of sets of integer powers”中提出,核心是探究在极端约束下是否总能用“二进制”表示任意大数 [7][9] - AI“亚里士多德”输出的定理形式化为:`theorem erdos_124 : ∀ k, ∀ d : Fin k → ℕ, (∀ i, 2 ≤ d i) → 1 ≤ ∑ i : Fin k, (1 : ℚ) / (d i - 1) → ∀ n, ∃ a : Fin k → ℕ, ∀ i, ((d i).digits (a i)).toFinset ⊆ {0, 1} ∧ n = ∑ i, a i` [13] - 目前解决的是该问题两个版本中较为简单的一个,完整版本更具难度 [14][22] 行业影响与趋势 - 陶哲轩指出,数学未解问题服从“长尾分布”,AI自动化正在收割长尾末端的“低垂果实”,即大量相对容易但因关注度低而未解决的问题 [16][18] - 近期,埃尔德什问题网站的“未解”标签下减少了近十个问题,均因AI辅助的文献搜索发现已被解决,人类数学家也正结合AI工具和形式化证明助手进行研究 [20] - AI自动化工具能先清理容易的问题,将真正困难的部分剥离出来,使人类数学家能更专注于值得投入的难题 [23] 竞品对比 - 根据陶哲轩的点评,Gemini和ChatGPT的深度研究工具均未能针对该问题找到新的、有价值的文献 [15] - Gemini仅给出了一个简单的观察,并将其与一些平行研究联系起来,但未找到直接相关的新文献 [15] - ChatGPT大量依赖现有网页作为权威来源,未能提供新信息,尽管其生成的总结可能有趣 [15] 应用案例与前景 - 陶哲轩以“Equational Theories Project”为例,该项目涉及普遍代数中2200万条可能的蕴涵关系,通过采用自动化方法在几天内解决了大部分,仅剩的顽固难点最终由人类数学家花费数月攻克 [18] - AI发现另一类“低垂果实”是因描述存在技术性瑕疵而意外变得好解决的问题,E124的简化版本即属此类,其因遗漏关键假设而成为已有判据的直接推论,这一漏洞由AI自主发现并证明 [21][22][23] - 埃尔德什问题网站收录了1108个问题,其中包含大量不起眼、几乎无人关注的问题,为AI自动化攻克提供了广阔空间 [20]
GPT-5通过“哥德尔测试”!独创性解决博士生都得花几天时间的开放数学问题
量子位· 2025-09-25 21:00
文章核心观点 - GPT-5在解决高等数学中未解决的优化猜想方面展现出显著能力,在五道题中成功解出三道[1][2] - GPT-5不仅能够复现已知证明路径,甚至对其中一道题给出了与研究者预期不同但同样有效的证明方案[2][39] - 该测试表明GPT-5具备解决真正开放性数学问题的潜力,其数学推理能力相比早期模型有显著提升[5][26] 测试背景与性质 - 此次测试被称为“哥德尔测试”,挑战的是需要博士水平研究者花费数天才能完成的未解决数学猜想,而非为人类高中生设计的奥林匹克竞赛题[3][8][10] - 测试问题集中于组合数学的子领域——子模最大化,该领域核心是研究边际收益递减的优化问题[12][13][16] - 测试要求模型在仅提供最小化描述和参考文献、无解题提示的情况下,自主生成包含可量化性能保证的严格数学证明[21][24] GPT-5在各题目的具体表现 - **第一题(最大化“单调+非单调”子模函数)**:GPT-5沿最“贪心”方向微调解,利用函数结构保证结果接近最优,证明总体正确[22][23][27] - **第二题(子模函数最大化的双重标准算法)**:GPT-5给出的答案比研究者最初猜想更合理,推导基本正确,但存在忽略特例下更精确数字的小问题[33][39][40] - **第三题(凸集合约束下最大化连续单调函数)**:GPT-5回答正确性较高,但在被要求生成新证明版本时,仍存在细节和可读性问题[45][59][62] - **第四题与第五题**:GPT-5均未成功,这两题需要结合至少两个不同文献的洞见,其综合推理能力是主要局限之一[26][63][73][81] 模型能力评估与局限 - GPT-5在基础数学能力上显示出明显提升,并偶尔展现独创性,但输出可能表面上正确而本质上错误,存在深层次缺陷[26] - 提示词对性能影响显著,当被要求提供完整证明时,GPT-5更倾向于保留中间步骤,生成更完整和自洽的解答[26] - 模型倾向于跳过未变步骤并严格模仿原始结构,而非寻求更自然的替代方法,类似人类的偷懒行为[26][41]
速递|斯坦福90后中国数学博士的AI公司,未出产品先融资5000万美元,B Capital正洽谈领投
Z Potentials· 2025-06-04 10:42
数学AI初创公司Axiom - 斯坦福大学数学博士生Carina Hong创立Axiom 致力于开发基于形式化数学证明训练的AI 目标估值3亿至5亿美元 正筹集5000万美元资金 [2] - Axiom计划将产品出售给对冲基金和量化交易公司 帮助解决涉及资产价值和股票市场的复杂数学问题 [3] - 公司开发方向是利用编程语言训练机器掌握形式化证明语言 而非仅回答问题 [6] 数学AI行业动态 - OpenAI的o4-mini在FrontierMath评估中超越人类数学家团队 谷歌AI达到国际数学奥林匹克金牌水平 [4] - 主流AI模型如Anthropic OpenAI和谷歌在基础数学问题仍存在错误 但复杂查询处理展现潜力 [3] - 谷歌AI模型存在组合数学领域的短板 恰为Carina Hong的专长领域 [5] 竞争格局 - 类似数学AI初创公司Harmonic由Robinhood CEO创立 2023年以3 25亿美元估值融资7500万美元 [6] - 投资者对专业数学AI模型仍保持兴趣 尽管部分认为自主模型开发窗口期已过 [3] 创始人背景 - Carina Hong拥有MIT数学与物理学位 牛津大学深造经历 斯坦福在读 发表过组合数学领域论文 [3] - 曾指出主流AI模型数学表现优异可能源于训练数据包含考题 而非真正掌握证明能力 [6]