Workflow
全球首个IMO金牌AI诞生!谷歌Gemini碾碎奥数神话,拿下35分震惊裁判
猿大侠·2025-07-22 11:33

核心观点 - 谷歌DeepMind的Gemini Deep Think模型在IMO竞赛中以自然语言方式破解5道题,获得35分(满分42分),达到金牌标准[3][4][22] - 该成绩获得IMO组委会官方认证,成为首个获此认可的AI系统[6][7][24] - 模型突破在于完全使用自然语言端到端推理,无需形式语言翻译,且在4.5小时比赛时限内完成[26][29] - 相比2024年AlphaProof和AlphaGeometry 2解决4题获28分(银牌)的表现有显著提升[17][19] - 技术核心是Deep Think增强推理模式,结合并行思考技术和强化学习训练[32][33][35] 技术实现 - 采用并行思考技术,同时探索多种解题路径并整合最优答案[33][34] - 通过新颖的强化学习训练,利用多步推理和定理证明数据提升能力[35] - 提供高质量数学问题解决方案集和IMO解题技巧作为知识库[42] - 模型即将向数学家测试者和Google AI Ultra订阅者开放[39] 解题案例 - 第一题(解析几何):通过设定引理和分类讨论,证明阳光线数量只能是0、1或3条[44][45][52] - 第二题(平面几何):分五步证明,包括确定旁心位置和引入辅助点性质[54][55][59] - 第三题(函数):通过上界证明c≤4和下界证明c≥4确定最小实数常数为4[65][66][67] - 第四题(数论):用五步证明序列性质,包括偶数性分析和动态行为研究[73][74][78] - 第五题(组合博弈):通过离散化策略和蓄力战术,确定Alice与Bazza的必胜条件区间[84][85][86] 行业影响 - IMO成为AI能力试炼场,数学推理能力接近顶尖人类水平[16][19] - 自然语言与形式化推理结合的AI将成为科研人员重要工具[105] - 谷歌与OpenAI的竞争凸显技术路线差异:官方认证vs自评结果[108][109][129] - OpenAI被质疑未获官方认证且提前公布结果,影响行业声誉[109][112][130] 团队背景 - 项目由Thang Luong领导,他是机器翻译深度学习先驱和注意力机制发明者[95][96][97] - 团队曾开发AlphaGeometry、LaMDA、Bard等知名项目[98]