Workflow
Aletheia
icon
搜索文档
谷歌AI连发6篇数学论文,Gemini攻入博士级科研,91.9%刷爆SOTA
36氪· 2026-02-12 10:50
核心观点 - 谷歌DeepMind推出的基于Gemini的AI智能体Aletheia在数学、物理和计算机科学等核心科研领域取得突破性进展,能够独立或协作攻克研究级难题并撰写学术论文,标志着AI正成为强大的科研协作者并可能重塑科研工作流 [1][7][42] 数学研究突破 - 谷歌DeepMind构建了基于Gemini Deep Think的数学研究AI智能体Aletheia,其具备在自然语言中端到端迭代生成、验证和修改解决方案的能力,并能承认自身无法解决的问题 [9][11][13] - Aletheia在IMO-ProofBench高级基准测试中取得91.9%的成绩,显著领先于GPT-5.2 Thinking (35.7%)、Gemini 3 Pro (30.0%)等模型,在IMO 2024+子项上达到100%正确率 [2][3] - Aletheia已完成首批六篇论文,其中一篇题为“Eigenweights for arithmetic Hirzebruch Proportionality”的论文完全由其独立生成,无任何人工干预 [18][19] - Aletheia对“Erdős猜想”数据库中的700个开放问题进行了系统性评估,并自主解决了其中四个未解之谜,例如Erdős-1051问题 [2][23] - 谷歌DeepMind建立了一个对“AI辅助数学研究”成果的分类法,Aletheia的成果已被列为第2级(可发表质量)并提交知名期刊,但尚未获得第3级(重大进展)或第4级(里程碑式突破)的成果 [28][29] 跨学科科研应用 - Gemini Deep Think与专家合作,在物理学和计算机科学领域攻克了18个长期停滞的研究难题,涵盖子模优化、离散算法、机器学习、信息论与经济学等 [6][34] - 在计算机科学领域,Gemini通过引入连续数学分支的高深工具(如Kirszbraun定理、测度论),解决了“最大割”和“施泰纳树”等经典离散算法难题 [35] - Gemini设计了一个“三项目组合反例”,终结了在线子模优化领域一个持续十年的猜想,证明了之前的人类直觉是错误的 [37] - 在机器学习领域,Gemini分析并证明了一种新优化技术的成功机理在于其能秘密生成“自适应惩罚” [38] - 在经济学领域,Gemini利用拓扑学和序理论扩展了关于拍卖AI生成Token的“显示原理”,使其能适应连续的实数投标范围 [39] - 在物理学领域,Gemini利用“盖根鲍尔多项式”为宇宙弦引力辐射计算中棘手的积分找到了一个新颖的封闭形式解析解 [40] - 这些成果中约有一半瞄准顶级学术会议,其中一篇已被ICLR 2026录用,其余大部分计划投稿期刊 [41] 技术能力与工作流 - 驱动Aletheia的核心技术支柱包括:专门用于极难推理题的Gemini Deep Think高级版、新颖的推理时Scaling Law(能力跨度从奥数到博士级练习)、以及深度集成Google搜索和网页浏览的强大工具调用能力 [15][17] - 谷歌DeepMind证明了从奥赛级别到博士级练习题,Scaling Law依然有效,并且Aletheia能用更少推理算力实现更高的推理质量 [15] - 高效的“顾问”合作模式被总结出来,即人类通过迭代的“直觉验证”循环来引导AI,以验证直觉并完善证明 [30] - 采用的战术技巧包括“平衡提示词”(要求AI同时尝试证明或反驳以防止确认偏误)以及代码辅助验证 [32] - AI推理流程展示了网络层对解题空间进行广泛探索,然后收敛为结构化推理,最终通过自动化验证与人工审核进行确认 [34] 行业影响与趋势 - 该进展表明,通用的基础模型结合智能体推理工作流,可以成为数学家、物理学家和计算机科学家等领域专家的强大科学伙伴 [42] - 公司认为正在见证科学工作流的根本性转变,Gemini正在成为人类智慧的“倍增器”,负责处理知识检索和严格验证,让科学家能更专注于概念深度和创新方向 [44] - AI通过完善证明、寻找反例、连接不相关领域,正在成为科学进步新篇章中不可或缺的协作者 [44]