研究概述 - 谷歌研究团队利用其AI模型Gemini构建了名为Aletheia的数学研究智能体,对Erdős Problems数据库中约700个标记为“open”的数学猜想进行了半自动探索[2][8] - 该研究最终在可明确判定的约200个候选解中,确认了13个有意义的正确结果,占总候选解的6.5%[9] - 研究结果表明,AI已能摘取Erdős问题中的“低垂的果实”,但同时也揭示了AI辅助数学研究的真实成本与局限性[19] 研究方法与过程 - 研究在2025年12月2–9日进行,使用基于Gemini Deep Think的Aletheia智能体进行大规模生成与初步筛选[9] - 流程包括:通过内置验证器将候选问题从700个收敛至212个,再由非领域专家数学家快速过滤至27个,最后交由领域专家严审[9] - 在约200个候选解中,137个(68.5%)存在根本性错误,63个(31.5%)形式成立,但其中仅13个(6.5%)真正回答了原问题,另有50个因误读题意而意义有限,12个因问题表述不清被标记为“歧义”[9] 关键成果分类 - AI自主解决:Aletheia为首个找到具有实质性数学意义的正确解决方案,包括Erdős-652和Erdős-1051[14][16] - 部分由AI解决:针对包含多个子问题的复杂问题,AI找到了其中一个子问题的首个正确解决方案,包括Erdős-654、Erdős-935和Erdős-1040[15][16] - 独立重发现:AI找到了正确解决方案,但审核者随后发现文献中已存在独立解,包括Erdős-397、Erdős-659和Erdős-1089,这凸显了AI可能存在“潜意识抄袭”的风险[15][19] - 文献识别:AI识别出文献中已明确存在解决方案的问题,尽管数据库标记为“open”,包括Erdős-333、Erdős-591、Erdős-705、Erdős-992和Erdős-1105[15][16] 研究的实际意义与挑战 - 研究表明,AI能够加速数学发现中注意力瓶颈环节,但所解决的所有开放问题,相关领域的专家都能轻松完成,不应过度夸大其数学意义[19] - 研究遇到的主要困难包括:大量技术正确的解决方案源于对问题陈述的误解,诊断这些问题耗费大量精力;以及确认解决方案是否已存在于文献中极具挑战性[12][19] - 随着AI生成数学内容增多,学术界必须警惕“潜意识抄袭”的风险,即AI再现训练数据中的知识而未适当引用,且形式化验证无法解决此问题[15][19] - 该领域存在误导性炒作和虚假信息,对数学界造成损害,未来可能有更多数学猜想列表成为半自主研究的目标,研究人员需关注相关问题[20]
谷歌给「AI解数学题」神话降温:能摘低垂果实,但过程依然痛苦