Workflow
陶哲轩力推AlphaEvolve:解决67个不同数学问题,多个难题中超越人类最优解
量子位·2025-11-07 13:32

核心观点 - AlphaEvolve被数学家陶哲轩称为数学发现的有力新工具,展示了AI在数学研究领域的强大能力 [1][2] 测试范围与成果 - 系统在67个数学问题上进行了测试,涵盖组合数学、几何、数学分析与数论等多个领域 [4] - 系统不仅复现了众多已知最优解,更关键的是能够自主发现新颖的数学构造,并在部分问题上超越人类已有的最优结果 [5][6][7] 自主发现与人机协作 - 在处理Nikodym集问题时,系统生成的构造为人类研究者提供了极好的直觉跳板,研究人员通过人工简化最终找到了更优构造,改进了已知上界,相关成果将作为独立数学论文发表 [8] - 在算术Kakeya猜想中,系统将一个已知的下界从1.61226提升至1.668,其构造的解(形态上类似于离散高斯分布)还启发人类数学家建立了新的渐近关系,相关成果也即将发表 [12] 系统特性优势 - 系统在可扩展性、鲁棒性、可解释性方面均优于传统工具 [9] - 系统生成的是结构清晰的程序代码,而非难以理解的黑盒结果,使得人类专家可以方便地分析、归纳其发现的模式 [12] - 在积木堆叠问题中,系统自主将递归程序重构为更简洁高效的显式程序,清晰揭示了最优解与谐波数之间的数学关系,与人类已知理论公式一致 [13][17] 鲁棒性与泛化能力 - 系统能够有效处理高维度参数空间、复杂的几何约束以及基于蒙特卡洛模拟的近似评分函数 [21] - 在最小三角形密度问题中,系统能适应从朴素评分函数切换到基于利普希茨连续性的更复杂连续评分函数,并迅速收敛到正确的理论最优解 [24][25] - 在IMO 2025第6题测试中,系统仅在输入n为完全平方数时被评分,这种信息限制迫使其寻找稀疏实例背后的共同结构模式,最终成功发现并在所有完全平方数n上均达到最优的通用构造,展现了归纳能力 [26][27][29] 效率与工作模式 - 系统效率极高,仅需少量高质量提示即可驱动,且对人类专家的输入具有高度敏感性,支持并行化架构以同时运行多个问题探索 [31] - 系统主要在两种模式下运行:"搜索模式"演化的是用于搜索构造的"搜索启发式算法"程序,解决了LLM调用缓慢与局部搜索快速之间的差异 [33][34][35] - "泛化模式"更具挑战性,目标是让系统编写能解决任意参数n问题的通用程序,期望其通过观察小规模n的最优解来自主发现并归纳出通用公式或算法 [37]