Workflow
Gemini 2.5 Deep Think
icon
搜索文档
半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了
量子位· 2025-12-13 12:34
事件概述:AI辅助解决Erdős 1026数学难题 - 陶哲轩与多名数学家合作,在多种AI工具的辅助下,仅用48小时便完全解决了尘封50年的Erdős 1026数学难题[1][2][3] - 陶哲轩指出,若使用传统方法,可能需要数周或数月才能解决[5] - 此次问题的快速解决,体现了“人与人的协作”与“人与AI的协作”相结合的新趋势[46][47] 问题背景与定义 - Erdős 1026问题最早于1975年被提出,初始表述模糊[8] - 数学家Desmond Weisenberg引入最大常数c(n)进行研究,使得S(x1,…,xn) ≥ c(n) * Σxi,其中c(n)针对所有长度为n的不同实数序列[10][11] - 博弈论解释:Alice将N个硬币分为n堆,Bob选择一个单调子序列的堆并拿走其中硬币,c(n)是Bob能保证拿走的最小比例[12][13] - 通过计算得到c(n)的前几个近似值:1, 1, 2/3, 1/2, 1/2, 3/7, 2/5, 3/8, 1/3[15] 解决过程与AI工具应用 - 数学家Boris Alexeev使用Harmonic的数学AI模型“亚里士多德”,在证明助手Lean中自动构造并证明了关键不等式,将原问题转化为计算几何领域的矩形填充问题[16][17] - 数学家Koishi Chan随后给出了基于原始Erdős–Szekeres定理的替代证明,印证了AI的发现[18] - 陶哲轩将问题放入AlphaEvolve,要求其通过生成总和为10的6次方的实数序列来获取c(n)的上界,运行一小时后,AI生成了包含结构清晰潜在极值解的上界结果[18][19] - 陶哲轩利用John Cook的公开专用工具整理序列,为c(n)的值提供了猜想[21] - Boris Alexeev找到了该猜想的简洁表述:c(k²+2a+1) = k / (k²+a),其中0 ≤ a ≤ k[22] - 使用ChatGPT Pro生成1/c(n)的图像,直观显示其基本是对平方根函数的分段线性逼近[26] - 数学家Lawrence Wu结合正方形填充问题(Erdős 106)进行阐述,引入f(n)并设定c(n) ≥ 1/f(n)[28][30] - Lawrence Wu通过AI论文检索,找到一篇去年发表的论文,最终证明了猜想中的公式,从而完成了整体证明[32] AI在数学研究中的广泛应用 - 陶哲轩近期还借助Gemini 2.5 Deep Think破解了Erdős问题 367,全程只用了十分钟[34][35] - 陶哲轩利用GPT-5进行半自动化文献检索,对相关数列进行高精度计算后输入OEIS数据库检索对照,发现部分Erdős问题其实早已在既有研究中被解决[37] - 来自Harmonic的数学AI模型被曝独立证明了Erdős问题 124,微软前AI副总裁Sebastien Bubeck表示该解决方案100%由AI生成,总计耗时6小时[43][44] - Erdős问题网站公开鼓励使用AI辅助解题,但需满足公开说明、用户独立验证及评论长度合理等条件[45] - 陶哲轩表示,在Erdős问题网站上,AI辅助已经变得很常见[42] Erdős问题背景 - Erdős问题出自20世纪著名匈牙利数学家Paul Erdős,他一生合作了超500位数学家,发表了约1525篇数学论文[39] - 他提出或转述了上千道问题,被收录于erdosproblems.com网站,目前绝大多数难题依然悬而未解[39][41]
陶哲轩亲测:我用Gemini十分钟搞定了困扰学界多年的难题
量子位· 2025-11-24 15:30
文章核心观点 - 著名数学家陶哲轩借助Gemini 2.5 Deep Think模型,仅用十分钟便成功补全并验证了一个前人未完成的数学难题的证明[1][2][3] - 该事件是AI辅助解决数学问题的典型案例,并非孤例,近期已有6个困扰数学界多年的Erdős难题通过AI辅助得以解决[6] - AI在数学研究中的应用正变得日益普遍和系统化,许多研究者使用AI工具进行文献查询和解题思路探索[7] - AI被视为数学家的重要辅助工具而非替代者,其角色是充当证明的“中介”并帮助发现新的研究路径[35][37] AI模型性能表现 - Gemini 2.5 Deep Think模型在十分钟内完成了从论证分析到结论确认的全过程[3][20] - 该模型由IMO金牌得主参与开发,在最新的FrontierMath测试中,其数学能力远超GPT-5(high)等模型[10] - 在后续的文献查询任务中,Gemini DeepResearch和ChatGPT DeepResearch均能识别出问题所属范畴,但在细节上仍存在混淆[27] 具体问题与解决过程 - 解决的数学问题是由Paul Erdős提出的367号问题,涉及连续整数结构的乘法数论[12] - 数学家Wouter van Doorn基于一个未验证的同余恒等式提出了反证,陶哲轩将此交给Gemini进行完整证明[16][19] - 在Gemini完成p-adic代数数论证明后,陶哲轩手动花费半小时将其转换为更基础的论证方式[21] - Boris Alexeev使用Harmonic的Aristotle工具,花费两到三小时完成了该证明的Lean形式化验证[24] AI在数学领域的应用趋势 - 陶哲轩自三年前ChatGPT发布起就开始系统性探索AI在数学证明中的应用[29][30] - AI的进步使得数学研究未来将拥有更多的实验性方法,而不仅仅是理论推演[30] - 对于缺乏专业知识但怀有热忱的学习者,AI将帮助他们达到难以想象的学习深度[32] - 需要警惕AI可能产生的“幻觉错误”,数学家的细心纠正仍是不可或缺的环节[34]
十分钟出结果,陶哲轩用Gemini Deepthink帮人类数学家完成Erdős问题论证
机器之心· 2025-11-23 12:06
AI在数学研究中的应用进展 - 著名数学家陶哲轩使用Gemini 2 5 Deep Think AI工具验证了一个复杂的数学恒等式 该工具仅用约十分钟就完成了使用p-adic代数数论的完整证明[9] - 陶哲轩随后花费约半小时将AI生成的复杂证明转换为更基础的形式 使其适合在Lean定理证明器中形式化验证[11] - 数学家Boris Alexeev使用Harmonic的Aristotle工具完成了该问题的Lean形式化 整个过程花费两到三小时 并手动形式化最终命题以防止AI滥用[12] 具体数学问题解决案例 - 独立研究者Wouter van Doorn于11月20日针对Erdős问题367提出了一个反例 依赖于一个他认为成立但需要验证的同余恒等式[5] - 该数学问题涉及复杂的极限表达式和乘积不等式 具体形式为lim sup (∏Bᵣ(m)/n¹⁺ᵉ)→∞以及∏B₂(m)的相关不等式[4][6][8] - 问题解决过程展示了从人类提出猜想 AI快速验证 到数学家优化证明并最终实现形式化验证的完整协作流程[5][9][11][12] 数学研究平台与社区协作 - Erdős问题网站专注于数学研究 收录保罗・厄尔德什提出的各类问题 涵盖数论 组合数学 图论等领域[1] - 该平台为研究人员 数学爱好者和学者提供提出 讨论和解决数学问题的空间 促进了学术交流与合作[1] - 此次事件通过Mathstodon等社交平台传播 显示了现代数学研究社区线上线下协同工作的新模式[13]
陶哲轩亲测,GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
36氪· 2025-10-13 08:31
AI在数学研究领域的性能评估 - GPT-5 Pro在全球最难的数学测试集FrontierMath Tier 4上取得13%的最高分,比Gemini 2.5 Deep Think多答对一道题,但差距在统计上不显著 [2][32] - FrontierMath被形容为“研究级问题集”,题目难度可让专家花费数周甚至数月才有进展,旨在测试极限推理能力而非计算能力 [21][23] - 高分主要体现在结构明确、符号化强的题型,如代数、线性系统和基础分析,而在几何构造、偏微分方程等需要直觉的题目上表现不佳 [34][41] AI作为研究工具的实际应用 - 数学家陶哲轩将GPT-5 Pro应用于一个悬而未解的微分几何难题,该问题涉及光滑嵌入在R³中的球面,其主曲率不超过1时,所包围的体积是否至少和单位球一样大 [5][6] - 在受限的“星形”情形下,AI在几分钟内生成了正确的推理链条,自动调用Minkowski积分公式、Willmore不等式和体积公式,并整合出证明 [10][11] - AI能够像熟练的研究生一样串联定义、公式和不等式,但在判断研究方向正确性上存在局限,当方向错误时会粉饰错误而非提出质疑 [14][15][43] AI能力的本质与行业影响 - AI的表现为“计算型助手”或“数学引擎”,擅长局部任务的推导和证明,但缺乏全局意识和情境感知 [13][44] - 最优的自动化程度被认为既不是0%也不是100%,需要在每个层面保留人类的参与,以维持对困难问题的方向感 [38][39] - 行业观察到AI的聪明是线性的,基于算力、推理链长度和提示词的优化,而人类的理解是拓扑的,能处理模糊和不确定性问题 [34][44][45]
谷歌与OpenAI同获ICPC 2025金牌!GPT-5满分夺冠,Gemini攻破人类队伍都没解出的难题
AI科技大本营· 2025-09-19 18:36
AI在算法竞赛中的突破性表现 - GPT-5在ICPC竞赛中取得满分,12道题全部解出,达到金牌水准,而人类最强队伍成绩为11/12 [1][8] - Gemini 2.5 DeepThink在677分钟内解出12题中的10题,达到金牌级别,成绩相当于全球第二 [2] - Gemini 2.5 DeepThink成功解出问题C,这是一道没有任何大学队伍解出的难题 [9] ICPC竞赛的权威性与挑战性 - ICPC是全球顶尖大学生编程赛事,汇聚全球高校顶尖算法天才,今年总决赛有来自103个国家、139所高校的战队参赛 [5] - 竞赛规则要求每支三人队伍在5小时内解答12道算法题,题目常涉及图论、数论、动态规划等前沿算法,难度极高 [5][6] - 历年来在ICPC拿到金牌的队伍几乎都成为全球科技公司的核心技术人才 [6] AI解题能力的技术意义 - GPT-5参赛时未针对ICPC做特别训练,在5小时内通过官方判题系统提交答案,其中11道题一次提交通过,最难一题在第9次提交时解出 [8] - Gemini 2.5 DeepThink解题思路具有原创性,通过设定优先级值、动态规划、极小化极大定理和嵌套三分搜索等步骤,展示了超越记忆的算法思维 [12] - 此次表现证明AI具备临场推理、抽象建模和创造性解题能力,而不仅仅是依靠记忆训练数据或海量算力 [14] 行业影响与未来展望 - AI在ICPC中的表现被视为"人机智力平权"的时刻,表明AI不再只是"会写代码的助手",而是具备与人类智力正面对抗的实力 [14] - 这与AI在SAT、律师资格考试、托福等人类考试中的高分表现不同,ICPC现场算法竞赛更能体现其真实能力 [13][14] - 此次突破标志着一个开始,AI是否能把这种能力扩展到更复杂的现实问题中还有待考验 [14]
OpenAI在ICPC 2025编程赛上满分登顶,Gemini也达到金牌水平
36氪· 2025-09-18 17:50
AI在ICPC竞赛中的表现 - OpenAI在5小时内解决了全部12个问题,相当于人类排名第1位,超过所有参赛大学团队[1] - OpenAI对11个问题的首次提交便获得正确答案,最难问题经过9次尝试后成功攻克[7] - OpenAI由通用推理模型集成体构成,结合GPT-5和实验性推理模型,未针对竞赛专门优化[12] Gemini在竞赛中的表现 - Gemini解决了12个问题中的10个,总用时677分钟,达到金牌水平,相当于人类排名第2[3][20] - Gemini在45分钟内解决8个问题,三小时内又解决2个问题,使用高级数据结构和算法[20] - Gemini在半小时内成功解决C题,而该题在竞赛中没有任何大学队伍解出[23] 人类团队竞赛结果 - 俄罗斯圣彼得堡国立大学排名第1,解决了11个问题[4] - 北京交通大学、清华大学、北京大学、中国科学技术大学分别排名2、4、5、9[4] - 在139支参赛队伍中,只有前四支队伍获得金牌[6] 技术实现细节 - Gemini通过假设水库优先级值,应用动态规划算法和极小极大定理解决C题[27][28] - Gemini通过嵌套三分查找迅速找到最优优先级值[28] - OpenAI解题过程中完全自主分析问题并提交答案,无定制化测试工具辅助[6] 研究人员背景 - OpenAI研究员Borys Minaiev曾获ICPC世界总决赛冠军,专注于大规模推理模型开发[14] - OpenAI研究员Mostafa Rohaninejad专注于元学习和强化学习,参与GPT-5开发[17][19] - Google DeepMind的Hanzhao Lin领导Gemini竞赛编程技术方向,Heng-Tze Cheng共同领导研究工作[28][31][33] 行业意义 - AI在ICPC中获得金牌级成绩,展示其在创新性解决方案方面的独特优势[35] - AI正从信息处理工具转变为解决复杂推理问题的关键力量[35] - 同一组模型已在IMO和IOI等竞赛中证明其实力和通用性[12]
刚刚,OpenAI在ICPC 2025编程赛上满分登顶,Gemini也达到金牌水平
机器之心· 2025-09-18 12:32
文章核心观点 - AI在顶级编程竞赛中首次超越顶尖人类团队,OpenAI在ICPC 2025世界总决赛中5小时内解决全部12个问题,排名相当于人类第1位,超过了所有参赛大学团队[1] - Google Gemini同样达到金牌水平,解决了12个问题中的10个,总用时677分钟,相当于人类排名第2位[3] - 此次突破标志着AI在复杂逻辑推理、多步骤问题解决能力方面取得重大进展,正从信息处理工具转变为解决复杂推理问题的关键力量[46] OpenAI参赛表现 - OpenAI在5小时时限内解决了全部12个问题,相当于人类排名第1位[1] - AI系统对11个问题的首次提交便获得正确答案,难度最高的问题经过9次尝试后成功攻克[10] - 解题速度最快的人类选手耗时270分钟,而OpenAI在竞赛总时长300分钟内完成所有题目[11] - 参赛AI由"通用推理模型集成体"构成,结合了GPT-5与实验性推理模型,未针对ICPC进行专门优化训练[15] Google Gemini参赛表现 - Gemini 2.5 Deep Think高级版本解决了12个问题中的10个,总用时677分钟,达到金牌级别[26][28] - 若与大学队伍比较,Gemini将排名第2,仅次于OpenAI[3] - Gemini在45分钟内解决了8个问题,随后三小时内又解决2个问题[29] - 值得一提的是,Gemini在半小时内成功解决了C题,而这道题在竞赛中没有任何大学队伍解出[33] 人类团队表现对比 - 人类团队中,俄罗斯圣彼得堡国立大学排名第1,解决了11个问题[4] - 北京交通大学排名第3,解决了10个问题,总用时1425分钟[5] - 清华大学排名第4,北京大学排名第5,中国科学技术大学排名第9[4] - 在139支参赛队伍中,只有前四支队伍获得了金牌[6] 技术突破意义 - ICPC是全球公认历史最悠久、规模最大、最负盛名的大学级算法编程竞赛,比IMO等高中奥林匹克竞赛更高一级[5] - AI在理解复杂问题、制定多步骤逻辑计划并精准执行方面展现出核心能力,这些正是许多科学和工程领域所需的关键技能[46] - 同一组模型已在国际数学奥林匹克和国际信息学奥林匹克等竞赛中证明实力,显示出强大的通用性与广泛适用潜力[15] 核心团队成员 - OpenAI参赛项目由Borys Minaiev和Mostafa Rohaninejad领导,Borys是前ICPC世界冠军,专注于大规模推理模型开发[16][19][23] - Google Gemini项目由Hanzhao (Maggie) Lin领导技术方向,与Heng-Tze Cheng共同领导整体研究和执行工作[38][39][43]
ICPC总决赛被AI统治,GPT-5组合系统12题全对登顶,人类打破头只能争夺第三
36氪· 2025-09-18 09:56
赛事结果 - OpenAI的GPT-5与实验性推理模型组合在2025年ICPC世界总决赛中解决全部12道题目 若计入排名将位居第一 [1] - 谷歌Gemini 2.5 Deep Think模型解决10道题目 达到金牌水准名列第二 [1] - 人类冠军队伍圣彼得堡国立大学解决11道题目 东京大学与北京交通大学各解决10道题目 [5] AI技术表现 - OpenAI系统在不到五小时内完成全部题目 其中11道由GPT-5独立完成且均一次提交通过 [6] - 问题G由实验性推理模型接力完成 共提交9次 仅人类冠军队伍曾用3次尝试解决该问题 [7] - Gemini延迟10分钟启动 总用时677分钟 前45分钟解决8道题目 三小时内累计解决10道 [5][12] - 双方均解决人类队伍无法攻克的问题C Gemini通过动态规划与嵌套三元搜索算法实现突破 [4][14][16] 技术实现细节 - OpenAI强调使用通用推理模型 未针对ICPC专门训练 团队含多名前ICPC参赛选手 [11] - Gemini融合预训练、后训练、新型强化学习技术、多步推理和并行思维等技术进展 [16] - OpenAI推理模型相比一年前在智能性、速度与成本效益方面显著提升 [11] 行业影响 - AI已在数学奥赛IMO、信息学奥赛IOI及编程大赛ICPC三大顶级赛事中证明能力 [19] - OpenAI表示将转向现实世界的科学与工程问题应用 不再参与竞赛 [19][20][23] - 赛事覆盖全球103个国家近3000所大学的139支顶尖队伍 [3]
刚刚,OpenAI/Gemini共斩ICPC 2025金牌,OpenAI满分碾压横扫全场
36氪· 2025-09-18 09:55
AI在顶级编程竞赛中的突破性表现 - 谷歌Gemini和OpenAI的模型在2025年国际大学生程序设计竞赛(ICPC)世界总决赛中均获得金牌,标志着AI在顶级编程竞赛中首次全面超越人类[1] - Gemini成功解答了12道题目中的10道,而OpenAI则全部解答正确,获得满分[1][3] - 在139支人类参赛队伍中,只有3支队伍取得了与Gemini相同的10题正确成绩,没有人类队伍获得满分[4] 具体竞赛表现对比 - 谷歌特别提到,问题C所有人类队伍都没有解答出来,而Gemini在半个小时内成功求解[4] - Gemini在比赛开始后迅速攀升至前几名,仅用45分钟就正确解答了8道题目[9] - Gemini最终答对了10道题,在大学队伍中获得了第二名[9] 技术实现细节 - 参加ICPC的Gemini 2.5与Gemini应用中使用的模型相同,但经过增强能够在五小时内持续思考[9] - 问题C要求将液体通过互连的管道网络分配到储液器中,由于管道配置可能性无穷无尽,寻找最佳配置非常困难[10] - Gemini的解决方法是通过假设每个储液罐有优先级值,使用动态规划算法和嵌套三元搜索在30分钟内找到最高效配置[10] 行业影响与战略意义 - ICPC全球执行董事Bill Poucher博士认为,Gemini取得黄金级成果标志着定义下一代人工智能工具和学术标准的关键时刻[35] - 这表明人工智能可以成为程序员真正的问题解决伙伴,对软件开发有直接且实际的意义[36] - 谷歌和OpenAI同时宣布这一成果意义非凡,双方都想争夺首个在IMO级别赛事中取得突破的AI称号[35] 模型开发与团队背景 - OpenAI的模型解决了全部12道题目,其中11道使用GPT-5解决,最难的一道题使用未公布型号的神秘实验推理模型解决[21] - OpenAI团队包括多位ICPC世界顶尖选手,如2015年世界冠军Borys Minaiev和传奇选手tourist[26][30] - OpenAI首席科学家Jakub Pachocki也是ICPC世界金牌得主,亲自为团队表现站台[32][36] 开源与验证 - 谷歌已将Gemini在ICPC的解题代码全部公布在GitHub仓库中,供开发者挑战[17] - 第三方AI工具Cursor对谷歌公布的答案进行评价,认为其求解方法非常完美[16]
ICPC总决赛被AI统治!GPT-5组合系统12题全对登顶,人类打破头只能争夺第三
量子位· 2025-09-18 08:51
AI在顶级编程竞赛中的表现 - OpenAI的GPT-5与实验性推理模型组合在2025年ICPC世界总决赛中解决了全部12道题目,若计入排名将位居第一 [2][9] - 谷歌的Gemini 2.5 Deep Think模型解决了10道题目,达到金牌水准,若与大学队伍比较将名列第二 [3][18] - 在官方监督的独立“AI实验赛道”中,AI系统与来自全球103个国家、近3000所大学的139支人类队伍面对相同题目和评测标准 [5][6] AI解决关键难题的技术细节 - 没有人类团队能够解决的“问题C”,OpenAI和谷歌的模型组合均成功攻克 [7] - OpenAI系统最有挑战的是“问题G”,由实验性推理模型接力完成,总共提交了9次,而人类选手中仅第一名团队在3次尝试中解决 [11][12] - 谷歌Gemini为解决“问题C”,采用了假设储存库“优先级值”、动态规划算法及嵌套三元搜索在凸解空间中快速找到最优解的方法 [21][25][26] AI模型的技术进展与战略方向 - OpenAI强调参赛的是通用推理模型,并未专门为ICPC进行训练,其团队中有研究员本身是ICPC参赛选手出身 [16] - 谷歌Gemini的成功融合了预训练、后训练、新型强化学习技术、多步推理和并行思维等一系列技术进展 [27][28] - OpenAI研究副总裁表示ICPC之后可能不会参与其他竞赛,下一个前沿领域是将科学和工程技能应用于现实世界问题 [30][32] - 自推理模型范式问世后,AI已在数学奥赛IMO、信息学奥赛IOI和编程大赛ICPC中连续表现出色 [29]