Gemini Deep Think

搜索文档
全球首个IMO金牌AI诞生!谷歌Gemini碾碎奥数神话,拿下35分震惊裁判
首席商业评论· 2025-07-23 12:02
谷歌DeepMind在IMO竞赛中的突破 - 谷歌DeepMind的Gemini Deep Think模型在IMO竞赛中破解5道题,获得35分(满分42分),达到金牌标准[3][4][21] - 该模型在4.5小时内完成解题,使用纯自然语言(英语)进行端到端推理,无需形式语言翻译[5][25] - 这是首个获得IMO组委会官方认证的金牌级别AI系统[6][7] IMO竞赛背景与AI参与情况 - IMO是数学界最高级别竞赛,每年吸引全球顶尖学生参与,需在4.5小时内解决6道深度数学问题[10][11] - 只有前8%的选手能获得金牌[12] - 2024年AlphaProof和AlphaGeometry 2破解4题获28分,达到银牌水平[16][18] Gemini Deep Think的技术创新 - 采用增强推理模式Deep Think,结合并行思考技术同时探索多种解题路径[29][30] - 通过新颖的强化学习训练,利用多步推理、问题解决和定理证明数据提升能力[31] - 团队提供高质量解决方案集和IMO解题技巧,优化模型表现[33] 解题过程与数学方法 - 第一题解析几何:通过设定引理和定理,证明阳光线数量只能是0、1或3条[37][41][42] - 第二题平面几何:分五步证明,包括确定旁心、求角度、引入辅助点等[44] - 第三题函数分析:通过分类和上下界证明确定最小实数常数c=4[47][50][51] - 第四题数论:通过五步分析确定序列起始值的限制条件[54][55][56][58] - 第五题组合博弈:通过离散化策略和蓄力策略分析胜负条件[64][65] 团队与技术负责人 - 项目由Thang Luong领导,他是Google DeepMind高级主任研究员,斯坦福大学博士[71][72] - Thang Luong在机器翻译、语言模型和视觉模型领域有开创性贡献,曾开发AlphaGeometry项目[72][73] 行业影响与未来展望 - 该突破显示AI在数学推理领域的重大进展,结合自然语言与严谨推理能力[76][77] - 谷歌认为这类AI将成为数学家、科学家和工程师的重要工具[77] - 该技术方向被视为通往AGI道路上的重要里程碑[78] OpenAI与谷歌的对比 - OpenAI此前宣称获得IMO金牌但未经官方认证,谷歌结果获得IMO官方认可[6][81] - OpenAI模型未使用形式语言但依赖外部评委评分,谷歌采用端到端自然语言推理[25][88] - 两家公司在方法上各有侧重,但谷歌的官方认证结果更具权威性[95]
AI首夺数学奥赛金牌!谷歌Gemini闪耀IMO赛场 OpenAI同步“摘金”
智通财经网· 2025-07-22 21:28
谷歌称,Gemini Deep Think的先进版本完美解答了国际数学奥林匹克竞赛(International Mathematical Olympiad,简称IMO)六道题目中的五道,总得分35分,达到了金牌级别的表现。 DeepMind的唐·卢昂(Thang Luong)和爱德华·洛克哈特(Edward Lockhart)在一篇博客文章中写道:"今年, 我们先进的Gemini模型以自然语言进行端到端运算,直接根据官方题目描述给出严谨的数学证明,而且 这一切都在4.5小时的竞赛时限内完成。" 去年,谷歌DeepMind的AlphaProof和AlphaGeometry 2组合系统取得了银牌成绩,解答出六道题目中的 四道,得分28分。 国际数学奥林匹克竞赛主席格雷戈尔·多利纳尔教授(Prof. Dr. Gregor Dolinar)表示:"我们可以确认,谷 歌DeepMind 达到了众人期待已久的里程碑,在满分42分中获得了35分,这是金牌成绩。他们的解题方 法在很多方面都令人惊叹。国际数学奥林匹克竞赛的评委们认为,这些解答清晰、准确,而且大部分都 易于理解。" 智通财经APP获悉,Alphabet(GOOG ...
Altman 秀新模型“翻车”,谷歌补刀躺赢!OpenAI 前员工爆肝3天,编程再赢老东家模型!
AI前线· 2025-07-22 17:32
OpenAI新模型进展 - OpenAI近期测试多款未公开新模型 包括疑似GPT-5的o3-alpha-responses-2025-07-17模型和编程竞赛亚军模型OpenAIAHC [1][5][7][8][10] - o3 Alpha模型在Web开发测试中表现惊艳 仅上线5-6小时后下架 可能在未来几周正式发布 [5][7][8] - OpenAI CEO曾暗示公司内部有全球前50编程能力的模型 2025年底可能推出超人类级编程模型 [8] 国际数学奥林匹克竞赛表现 - OpenAI宣布实验性AI模型在IMO取得金牌成绩 达到前9%人类选手水平 在4.5小时限制下完成6道证明题 [2][3] - 谷歌DeepMind的Gemini Deep Think在IMO六题中答对五题 达到金牌水平 此前AlphaProof和AlphaGeometry 2仅获银牌 [2][4] - OpenAI因提前公布成绩和自行评分引发争议 被质疑违反IMO保密协议和评分标准 [3][4] 编程竞赛表现 - OpenAI的OpenAIAHC模型在AtCoder世界巡回赛总决赛中获得亚军 得分1,654,675,725,406 不敌人类冠军的1,812,272,588,909 [10][11][12] - 这是AI首次在顶级编程竞赛中进入前三名 展示出战略性推理和长期规划能力 [12][13] - 比赛采用10小时限时赛制 参赛者使用相同硬件 每次提交需间隔5分钟 [10] 行业动态 - 谷歌DeepMind CEO批评OpenAI过早公布IMO成绩 强调应尊重官方验证流程 [4] - 多家AI公司被IMO要求推迟至7月28日公布结果 但OpenAI提前宣布引发不满 [4] - 行业观察显示AI在编程和数学竞赛中进步显著 可能很快超越人类顶尖选手 [13]
DeepMind夺得IMO官方「唯一」金牌,却成为OpenAI大型社死现场
机器之心· 2025-07-22 12:25
技术突破 - 谷歌DeepMind新一代Gemini进阶版模型在IMO竞赛中达到金牌得主水平,成功解决六道超高难度试题中的五道,拿下35分(满分42分),成为首个获得奥赛组委会官方认定为金牌的AI系统[2] - 该系统首次证明人工智能无需依赖专业编程语言,仅通过自然语言理解即可攻克复杂数学难题[3] - 突破来自Gemini Deep Think增强型推理系统,采用并行思维技术,同时探索多种可能解决方案[6] - 模型以自然语言进行端到端运行,直接从官方问题描述中生成严格数学证明,并在比赛标准的4.5小时时限内完成任务[7] 行业对比 - 谷歌DeepMind成绩远超2024年表现,当时AlphaProof和AlphaGeometry系统组合解决六个问题中的四个,荣获银牌[4] - 谷歌谨慎发布方式赢得AI界广泛赞誉,与竞争对手OpenAI对类似成绩处理方式形成鲜明对比[11] - OpenAI因绕过官方竞赛规则提前官宣遭到批评,被指缺乏可信度[10][15] - DeepMind选择等待官方认可再发布成绩,赢得金牌和尊重,而OpenAI因时机与方式问题引发争议[25] 技术方法 - OpenAI研究科学家表示谷歌方法与其不同,说明存在多种研究方向[17] - OpenAI专注于不受Lean限制的自然语言通用推理研究,因此婉拒IMO基于Lean语言的正式比赛邀请[18] - OpenAI在通用推理方面取得进展,包括收集、整理和训练高质量数学数据,未使用RAG或任何工具[19] - OpenAI提交的每份证明由三位外部IMO奖牌获得者评分并获得一致正确性认可,证明已公开发布供验证[20][21] 行业影响 - 这场AI登上数学奥林匹克舞台的较量不仅是技术竞赛,更是关于规范、节奏与合作精神的展示[25] - 在通往AGI的路上,除了技术力,如何与人类社会的规则与价值观对齐正变得愈发重要[25] - AI推理能力正在快速发展,IMO结果确实表明了这一点[24]
全球首个IMO金牌AI诞生!谷歌Gemini碾碎奥数神话,拿下35分震惊裁判
猿大侠· 2025-07-22 11:33
转自:新智元 编辑:编辑部 【导读】 谷歌DeepMind奥数夺金了,得到IMO官方认证!新模型Gemini Deep Think仅用自然语言,在4.5小时攻克了5题,拿下35分。这次,具体解题过程也一并公开了。 今天,谷歌DeepMind正式官宣拿下IMO金牌! 他们凭借Gemini Deep Think(高阶版),一个通用模型,成功破解前5题,斩获35分(满分42分)。 而且, AI在极限4.5小时之内,就达到了IMO金牌标准。 最最重要的是,Gemini仅用纯自然语言——英语完成了解题。 与 OpenAI 不同的是,这一结果得到了IMO组委会官方认证。 Demis Hassabis连发两弹,一再强调「谷歌模型是首个获得官方金牌级别认可的AI系统」。 谷歌DeepMind,正式摘金 作为数学界的奥林匹克,IMO自1959年以来每年举办一次,每年吸引了全球各界优秀的学生参与。 参赛者需在4.5小时内解决6道极具深度的数学问题,涵盖代数、几何、组合数学和数论。 而且只有排名前8%的选手才能摘得金牌,象征着无上的学术荣耀。 2024年,AlphaProof和AlphaGeometry 2破解了6题中的4题,获得 ...