Workflow
AI辅助数学研究
icon
搜索文档
菲尔兹奖成果首次被AI完整形式化,Gauss20万行代码改写数学史?
机器之心· 2026-03-03 16:14
核心观点 - AI在数学形式化验证领域取得突破性进展,Math, Inc.公司开发的Gauss智能体在极短时间内完成了菲尔兹奖级别数学成果的自动形式化证明,这标志着人机协作在基础科学研究中进入新阶段,并可能推动数学研究范式的变革 [6][7][22] 公司背景与技术 - Math, Inc.由xAI前联合创始人、Morph Labs首席科学家Christian Szegedy创立,致力于通过自动形式化技术打造可验证超级智能 [3] - Gauss是该公司开发的首款专为协助数学专家进行形式化验证工作的自动形式化智能体,是一种能将自然语言推理与形式化推理交织的特殊语言模型 [3][15] 技术能力与性能表现 - Gauss在2024年用三周时间完成了强素数定理在Lean中的形式化,而陶哲轩与Alex Kontorovich团队此前为此努力了18个月才取得阶段性进展 [3] - 2025年1月,功能更强大的新版Gauss仅用两三天时间就重现了之前需三周完成的强素数定理形式化成果 [18] - 针对8维最优球体堆积定理的形式化,Gauss在五天内完成,并发现并修复了已发表论文中的一个排版错误 [18] - 针对更复杂的24维最优球体堆积定理,Gauss在没有现成蓝图参考的情况下,在短短两周内自动完成了全部形式化证明,代码量超过20万行 [1][18] 项目合作与人机协作模式 - “在Lean中形式化球体填充”项目始于2024年3月,由多位数学家合作,核心是编写人类可读的“蓝图”以梳理证明组成部分 [13] - Math, Inc.在项目过程中与人类团队协作,例如分享了其完成的30个待证明中间事实,其中一个证明帮助人类团队发现了项目中的一个排版错误 [16] - 尽管24维证明是自动化工作,但公司承认人类的众多贡献为成就奠定了基础,并将此视为人类与AI通力协作的结晶 [21] 行业意义与未来展望 - 此次8维和24维球体填充证明的形式化,代表了自动形式化和人机协作的分水岭时刻 [18] - 该技术有望解放数学家,让他们更专注于构想新的数学世界,标志着数学领域一场革命性变革的开始 [22] - 数学形式化将使已知成果可搜索、可组合、可机器导航,从而加速科研进程,并深化对数学知识统一性的理解 [23] - 未来挑战在于如何在全球尺度上组织、整合与维护由AI系统产生的形式化知识,公司计划与项目维护者合作确保生成代码的长期可用性与可维护性 [23][24]
谷歌给「AI解数学题」神话降温:能摘低垂果实,但过程依然痛苦
机器之心· 2026-02-03 22:22
研究概述 - 谷歌研究团队利用其AI模型Gemini构建了名为Aletheia的数学研究智能体,对Erdős Problems数据库中约700个标记为“open”的数学猜想进行了半自动探索[2][8] - 该研究最终在可明确判定的约200个候选解中,确认了13个有意义的正确结果,占总候选解的6.5%[9] - 研究结果表明,AI已能摘取Erdős问题中的“低垂的果实”,但同时也揭示了AI辅助数学研究的真实成本与局限性[19] 研究方法与过程 - 研究在2025年12月2–9日进行,使用基于Gemini Deep Think的Aletheia智能体进行大规模生成与初步筛选[9] - 流程包括:通过内置验证器将候选问题从700个收敛至212个,再由非领域专家数学家快速过滤至27个,最后交由领域专家严审[9] - 在约200个候选解中,137个(68.5%)存在根本性错误,63个(31.5%)形式成立,但其中仅13个(6.5%)真正回答了原问题,另有50个因误读题意而意义有限,12个因问题表述不清被标记为“歧义”[9] 关键成果分类 - **AI自主解决**:Aletheia为首个找到具有实质性数学意义的正确解决方案,包括Erdős-652和Erdős-1051[14][16] - **部分由AI解决**:针对包含多个子问题的复杂问题,AI找到了其中一个子问题的首个正确解决方案,包括Erdős-654、Erdős-935和Erdős-1040[15][16] - **独立重发现**:AI找到了正确解决方案,但审核者随后发现文献中已存在独立解,包括Erdős-397、Erdős-659和Erdős-1089,这凸显了AI可能存在“潜意识抄袭”的风险[15][19] - **文献识别**:AI识别出文献中已明确存在解决方案的问题,尽管数据库标记为“open”,包括Erdős-333、Erdős-591、Erdős-705、Erdős-992和Erdős-1105[15][16] 研究的实际意义与挑战 - 研究表明,AI能够加速数学发现中注意力瓶颈环节,但所解决的所有开放问题,相关领域的专家都能轻松完成,不应过度夸大其数学意义[19] - 研究遇到的主要困难包括:大量技术正确的解决方案源于对问题陈述的误解,诊断这些问题耗费大量精力;以及确认解决方案是否已存在于文献中极具挑战性[12][19] - 随着AI生成数学内容增多,学术界必须警惕“潜意识抄袭”的风险,即AI再现训练数据中的知识而未适当引用,且形式化验证无法解决此问题[15][19] - 该领域存在误导性炒作和虚假信息,对数学界造成损害,未来可能有更多数学猜想列表成为半自主研究的目标,研究人员需关注相关问题[20]
清华AI数学家系统攻克均匀化理论难题!人机协同完成17页严谨证明
量子位· 2025-11-04 16:22
核心观点 - AI在数学研究中的角色实现从“解题工具”到“科研协作伙伴”的升级,清华大学团队通过人机协同模式成功解决均匀化理论难题,形成约17页数学证明 [1][2][3] - 该研究验证了“人类分析+AI推导”协同范式的可行性,为攻克复杂数学问题提供了新路径,使AI踏入“原创科研”核心地带 [2][3][5] 研究背景与目标 - 当前主流AI系统在数学研究中存在局限,如FunSearch、AlphaEvolve依赖程序化表述,AlphaGeometry系列聚焦几何推理,难以覆盖广泛数学分支,且完整证明构建仍需依赖人类 [4] - 研究核心目标是打破AI在数学研究中的困境,通过人机协同实现能力互补,共同攻克单一主体难以突破的复杂数学难题 [5] 具体研究问题与成果 - 研究聚焦均匀化理论问题,具体为推导周期性分布的流体夹杂尺度趋近于零时耦合Stokes-Lamé系统的极限均匀化方程,并严格证明原解与极限解的误差估计 [6][7] - 团队通过人机协同不仅得出极限方程,更精确证明了误差阶数α=1/2,形成约17页数学证明,AIM系统在最困难的子问题证明中作出非平凡贡献 [8][12] 人机交互五大模式 - 直接提示:通过定理提示、概念引导、细节优化,引导AIM聚焦核心推理路径,减少无效探索 [13][14] - 理论协同应用:将完整数学理论体系打包为“知识包”提供给AIM,使其在预设框架内开展多步骤连贯推导 [16][17] - 交互式迭代优化:遵循“AI输出→人类诊断→反馈修正→AI再推理”循环,逐步完善证明链条 [18][19] - 明确运用边界:针对AIM当前难以胜任的任务由人类主导完成,避免资源浪费 [20][21] - 辅助优化策略:通过多轮尝试筛选最优证明、提供目标结论约束推理方向、根据任务选择适配模型,提升AI输出可靠性与效率 [22] 研究价值与突破 - 验证人机协同数学研究范式,将AI推理能力与人类知识经验系统性融合,拓宽数学工作者能力边界 [27][28] - 攻克均匀化理论难题,证明内容很大程度上由AI生成,体现了人机协同在解决研究级数学问题方面的潜力 [29] - 系统梳理交互模式,提炼具有实证价值的见解,为未来AI辅助数学研究框架设计提供参考,加速AI与数学科研融合落地 [30] 未来研究方向 - 深化并系统化人机交互模式,研究现有模式能否迁移到其他数学领域,并针对特定需求设计更丰富高效的交互模式 [32][33] - 基于交互反馈优化AIM系统,以实现数学定理证明自动化为长期目标,依据实验积累的见解提升模型推理能力 [34][35][36]
陶哲轩用GPT5-Pro跨界挑战,3年无解的难题,11分钟出完整证明
36氪· 2025-10-11 17:23
AI在数学研究中的应用进展 - 陶哲轩与GPT-5 Pro合作解决了一个微分几何领域悬置3年的开放问题,该问题涉及三维光滑拓扑球面在主曲率绝对值不超过1的条件下所围体积的最小值问题[1][3] - GPT-5 Pro在11分18秒内完成了复杂计算并提供了完整证明,运用了Stokes定理、Willmore不等式和Minkowski第一积分公式等工具[5] - AI在验证证明步骤时提供了两种不同证明路径:基于散度定理的方法和基于流方法的新思路[7] AI辅助研究的效果评估 - 陶哲轩将AI的价值分为三个尺度:小尺度上表现良好,贡献了有用想法且只犯小错误;中尺度上略显无益,强化了错误直觉;大尺度上间接有帮助,能快速验证并放弃不适用方法[11][12][14] - 在数值搜索任务中,AI工具可节省大量时间,通过逐步对话执行启发式计算并找到可行参数选择[29] - 与GPT-4相比,GPT-5 Pro在解决复杂数学问题方面有显著进步,但仍有局限性,特别是在复杂分析问题上缺乏关键概念思想[27] AI工具的发展历程 - 从ChatGPT早期只能提供表面合理但缺乏实质深度的回答,到GPT-4已能处理统计数据并在几分钟内完成人类一天的工作量[21][22] - GPT-4在熟悉领域数学问题中能提出八种不同解决方法,其中生成函数法被证明比传统渐近分析方法更有效[23][25] - GPT-o1解决了前代的幻觉问题,在形式化任务中作用显著,被评价为"平庸但并非完全无能"的数学研究生水平[27] 人机协作模式优化 - 最优自动化水平严格介于0%和100%之间,需要足够自动化减少重复工作,同时保持"人在回路中"审查局部问题[18] - 减少AI幻觉的有效方法包括在计算任务每一步详细解释、对话中先确认再执行、对话后使用Python进行外部验证[29] - AI最合理的角色是数学家的"副驾驶"或助理,而非取代人类在创造性、直觉性和策略性方面的工作[31]