Gemini Deep Think
搜索文档
不只是“做题家”!DeepSeek最新模型打破数学推理局限,部分性能超越Gemini DeepThink
钛媒体APP· 2025-11-28 13:45
模型发布与核心创新 - 公司于11月27日晚间在Hugging Face发布最新开源数学模型DeepSeek Math-V2 [1] - 模型核心创新在于采用自验证方法突破AI深度推理局限 通过验证器训练证明生成器并激励其自我识别和解决证明中的问题 [1] - 该方法旨在解决大模型在数学领域“只重视答案却无法保证推理过程严谨正确”的症结 推动从“结果导向”转向“过程导向”的验证 [1][5] 性能表现与基准测试 - 模型在IMO 2025和CMO 2024上取得金牌级成绩 在北美Putnam 2024竞赛中获118/120接近满分 [2] - 在IMO-Proof Bench基准测试中得分高达99% 高于谷歌Gemini Deep Think的89%和GPT 5的59% [3] - 在IMO-Proof Bench进阶测试中得分61.9% 仅次于谷歌Gemini Deep Think的65.7% [3] - 模型是首个开源的IMO金牌级模型 并在部分性能上展现出比OpenAI和谷歌更大的优势 [2][3] 行业影响与专家评价 - 行业观点认为模型标志着从“聊天机器人”时代过渡到“推理者”时代 其自验证数学推理方法是一个可行的研究方向 [5][8] - 开源模型将有助于自动化注重验证的编程语言中的繁琐工作 其全天候数学推理能力潜力巨大 [5] - AI领域KOL和专家评价称“DeepSeek强势回归” 认为这是“无法忽视的力量” [8][9] - 跨学科团队Binary Verse AI指出模型突破了本科数学瓶颈 其意义不仅在于竞赛分数更在于方法论的创新 [6][8]
GPT-5危了,DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌
36氪· 2025-11-28 09:55
模型发布与核心成就 - DeepSeek发布开源数学大模型DeepSeekMath-V2,该模型是首款开源的IMO金牌水平模型[1] - 模型在IMO 2025中破解5题(共6题),达到金牌水平[3] - 在CMO 2024(中国数学奥林匹克)中达到金牌水平[3] - 在Putnam 2024中得分118分(接近满分120分),超越人类参赛者最高分90分[3] 核心技术突破:自验证 - 模型核心突破为自验证技术,通过自我反思提升证明能力[12] - 采用三位一体系统:证明生成器负责解题并诚实自我评价,证明验证器专门挑刺打分,元验证器检查验证器判断准确性[15][16] - 元验证器使验证器输出分析的平均质量分数从0.85提升到0.96,同时保持打分准确率[18] - 在最后两轮训练迭代中,全自动标注流水线完全替代人工标注,且自动生成标签与人类专家判断高度一致[19] 性能基准测试表现 - 在IMO-ProofBench中展现出强大定理证明能力,IMO 2025解题正确率达83.3%[3][4] - CMO 2024解题正确率达73.8%,Putnam 2024正确率达98.3%[4] - 在ProofBench-Basic上实力碾压谷歌金牌模型Gemini Deep Think,在ProofBench-Advanced上直追谷歌[5] 与行业领先模型对比 - 在内部测试集CNML上,DeepSeekMath-V2的One-Shot能力展现出统治级实力,全方位碾压GPT-5和Gemini[26][28] - 在允许自我验证的连续修正实验中,模型在代数、几何、数论与组合等领域均领先于GPT-5和Gemini,几何得分几乎是Gemini 2.5-Pro的三倍[29] - 模型具备高度自知之明,从自己生成的32个解法中挑选最佳答案时,评分准确度极高,得分跃升至0.42[31] 技术实现与进化特征 - 采用高算力搜索策略,对每道题初始生成64个候选证明,并为每个证明生成64个独立验证分析,只有通过所有验证的证明才被视为完全可信[32][33][34] - 模型进化特征显著,初始状态平均得分为0.15,经过8次自我修正后,证明质量分数飙升到0.27[38] - 实验证实LLM可以被训练成可靠的数学验证者,模型能准确找出未解题目证明中的漏洞,并通过所有考验的解法则真实可信[35]
DeepMind发布代码修复AI智能体CodeMender,实现「被动响应」与「主动防御」一体化
机器之心· 2025-10-07 15:00
文章核心观点 - DeepMind推出名为CodeMender的AI智能体,旨在使用Gemini Deep Think模型自动修补关键软件漏洞,其核心价值在于通过严格的验证确保修复质量 [2] - 该技术标志着软件行业正进入自我修复时代,是迈向自动化安全修复的重要一步 [10][24] CodeMender的技术原理与功能 - 核心机制是借助Gemini深度思考模型的思维能力,构建能自动调试并修复复杂漏洞的Agent,配备强大工具集以在修改代码前进行逻辑推演和自动验证 [12] - 采用全面的代码安全方法,实现“被动响应”(立即修补新漏洞)与“主动防御”(重写和保护现有代码)并重 [4] - 综合使用调试器、源代码浏览器等工具精确定位漏洞根本原因,并设计补丁 [14] - 基于高级程序分析技术(如静态分析、动态分析、差分测试等)系统性地审视代码,以精准定位安全漏洞 [18] - 采用多智能体系统,使不同智能体能够协同处理问题的不同方面,例如使用基于LLM的代码审查工具高亮显示代码差异以验证更改 [18] CodeMender的实际应用与案例 - 在过去六个月的开发过程中,已向开源项目上传了72个安全修复程序,其中一些修复程序涉及多达450万行代码 [5] - 案例1:成功识别堆缓冲区溢出的根本原因(XML元素堆栈管理不正确),尽管最终补丁仅修改了几行代码 [15] - 案例2:智能体能够创建非平凡补丁,成功处理复杂对象生命周期问题,并修改了项目内一个完全自定义的C代码生成系统 [16][17] - 具备主动重写现有代码的能力,例如将`-fbounds-safety`注释应用于图像压缩库libwebp,以添加编译器边界检查防止缓冲区溢出漏洞被利用 [19] - 具备自动纠正新错误和测试失败的能力,并能根据LLM Judge工具的反馈进行自我修正和验证更改 [22][23] 行业影响与开发者反馈 - 该技术可帮助开发者从繁琐的查找漏洞工作中解脱出来,使其能专注于打造优质软件 [6] - 开发者认为其突破点在于确保修复不会破坏其他功能,这是真正自动化与演示的区别所在 [8] - 有观点认为该技术可能对QA、安全审计、漏洞赏金等领域的收入构成冲击 [8] - 引发了关于“AI产生软件漏洞”与“AI自动修复软件漏洞”之间可能形成军备竞赛的讨论 [10] - 谷歌已启动针对AI产品漏洞的奖励计划,漏洞猎手们累计获得超过43万美元奖金 [9] 当前状态与未来计划 - 目前所有CodeMender生成的补丁在提交到上游之前都会经过人类研究人员的审核 [24] - DeepMind计划在未来几个月内继续分享技术论文和报告,并希望最终将CodeMender发布为所有开发人员可用的工具 [24]
AI拿下奥数IMO金牌,但数学界的AlphaGo时刻还没来
36氪· 2025-08-01 10:40
AI在IMO竞赛中的表现 - OpenAI和DeepMind的AI模型均在2025年国际数学奥林匹克竞赛中达到金牌标准,得分35分(满分42分),实现从2024年银牌到2025年金牌的数学推理能力跃升 [1][6][8] - OpenAI于7月18日率先宣布成绩,DeepMind两天后公布并获得IMO官方认证,双方成绩均通过独立验证 [6][8][9] - 尽管达到金牌线,AI模型仅解出6题中的5题,而人类选手有5人获得满分,表明AI数学能力尚未全面超越人类顶尖水平 [12] 技术突破与推理能力 - DeepMind的Gemini Deep Think模型首次完全使用自然语言输入输出完成IMO题目,无需依赖形式化证明工具如Lean,标志着语言模型独立数学推理能力的重大进展 [16][20][21] - 与2024年专为数学设计的混合模型AlphaGeometry和AlphaProof(仅达到银牌标准)相比,2025年模型在自然语言处理方面实现质的飞跃 [13][16][20] - 此次突破挑战了学界"语言模型无法独立完成真正数学推理"的观点,证明语言模型本身可处理高难度数学问题 [16][20][21] 行业竞争与人才流动 - DeepMind公开谴责OpenAI提前泄露IMO成绩,强调应尊重官方验证流程和参赛学生表彰程序,引发行业伦理争议 [8][9] - DeepMind金牌项目团队三名核心研究员被Meta挖角,过去六个月内已有20名员工流向微软,反映顶尖AI实验室间人才争夺加剧 [9] 模型解题特点对比 - 在平面几何题中,DeepMind采用接近人类选手的几何解法,而OpenAI使用"暴力"解析几何手段将问题转化为代数计算,显示不同解题策略 [23] - OpenAI解答语言呈现人性化特征(如使用"nice""very good"等鼓励性词汇),类似教师授课风格;DeepMind语言风格更接近数学论文的书面化表达 [27][29] - 两模型均频繁引入新符号定义概念,这与人类竞赛选手简化符号的习惯形成对比 [27] 数学研究应用前景 - IMO竞赛环境(限时、封闭、固定答案)与真实数学研究(开放性问题、自由探索)存在本质差异,AI当前更擅长解决竞赛类问题 [30][32] - 学界对AI数学应用形成两派观点:陶哲轩等认为AI未来将成为数学研究可信合作者,可提供启发式思路;Michael Harris等担忧数学自由探索精神被技术工具化和资本化侵蚀 [34][36] - 历史类比显示AlphaGo推动围棋理论创新,DeepMind科学家认为AI数学工具将帮助人类更好理解世界,而非取代数学家 [40]
不怕被挖!谷歌晒IMO金牌团队大合照,还挨个圈出了联系方式
量子位· 2025-07-25 15:59
谷歌DeepMind IMO金牌团队事件 - 谷歌DeepMind团队在IMO2025前夕集结全球核心成员进行冲刺训练,最终完成Gemini Deep Think模型的最终训练,使其性能达到巅峰状态[10][11][13] - 团队负责人Thang Luong公开晒出团队全家福,回应此前Meta挖走3名核心成员的事件,合照中未出现被挖走的3名华人成员[3][4][8][17] - 团队在训练过程中面临计算资源不足的问题,需要从多个团队东拼西借资源[12] 团队成员背景 - Thang Luong担任DeepMind超级推理团队负责人,是IMO金牌团队的核心领导者[4] - Yi Tay是团队联合负责人,曾参与谷歌PaLM、UL2、Flan-2、Bard等大模型研发,撰写45篇论文(16篇一作),后因创业期间健康问题重返谷歌[21][22][25] - Quoc Le作为Google Brain创始人之一,拥有斯坦福大学计算机科学博士学位,师从吴恩达[27] - Dawsen Hwang曾两次参加IMO并获得银牌和金牌,拥有MIT硕士和博士学位[33] - Jieming Mao本科就读清华大学,获普林斯顿大学计算机科学博士学位[35] 团队其他核心成员 - Andreas Kirsch在慕尼黑工业大学和牛津大学完成学业,现任Google DeepMind研究科学家[29] - Theophane Weber拥有MIT运筹学博士学位,曾在Analog Devices担任研究科学家[31] - Jonathan Lee主攻强化学习,获斯坦福大学计算机科学博士学位[37] - Vinay Ramasesh专注于量子处理器研究,获加州大学伯克利分校实验物理学博士学位[39] - Lei Yu在牛津大学完成博士研究,2017年加入Google DeepMind[41] - Zicheng Xu高中成绩全优(GPA满分),获莱斯大学双学位,计划攻读约翰霍普金斯大学博士学位[42]
全球首个IMO金牌AI诞生!谷歌Gemini碾碎奥数神话,拿下35分震惊裁判
首席商业评论· 2025-07-23 12:02
谷歌DeepMind在IMO竞赛中的突破 - 谷歌DeepMind的Gemini Deep Think模型在IMO竞赛中破解5道题,获得35分(满分42分),达到金牌标准[3][4][21] - 该模型在4.5小时内完成解题,使用纯自然语言(英语)进行端到端推理,无需形式语言翻译[5][25] - 这是首个获得IMO组委会官方认证的金牌级别AI系统[6][7] IMO竞赛背景与AI参与情况 - IMO是数学界最高级别竞赛,每年吸引全球顶尖学生参与,需在4.5小时内解决6道深度数学问题[10][11] - 只有前8%的选手能获得金牌[12] - 2024年AlphaProof和AlphaGeometry 2破解4题获28分,达到银牌水平[16][18] Gemini Deep Think的技术创新 - 采用增强推理模式Deep Think,结合并行思考技术同时探索多种解题路径[29][30] - 通过新颖的强化学习训练,利用多步推理、问题解决和定理证明数据提升能力[31] - 团队提供高质量解决方案集和IMO解题技巧,优化模型表现[33] 解题过程与数学方法 - 第一题解析几何:通过设定引理和定理,证明阳光线数量只能是0、1或3条[37][41][42] - 第二题平面几何:分五步证明,包括确定旁心、求角度、引入辅助点等[44] - 第三题函数分析:通过分类和上下界证明确定最小实数常数c=4[47][50][51] - 第四题数论:通过五步分析确定序列起始值的限制条件[54][55][56][58] - 第五题组合博弈:通过离散化策略和蓄力策略分析胜负条件[64][65] 团队与技术负责人 - 项目由Thang Luong领导,他是Google DeepMind高级主任研究员,斯坦福大学博士[71][72] - Thang Luong在机器翻译、语言模型和视觉模型领域有开创性贡献,曾开发AlphaGeometry项目[72][73] 行业影响与未来展望 - 该突破显示AI在数学推理领域的重大进展,结合自然语言与严谨推理能力[76][77] - 谷歌认为这类AI将成为数学家、科学家和工程师的重要工具[77] - 该技术方向被视为通往AGI道路上的重要里程碑[78] OpenAI与谷歌的对比 - OpenAI此前宣称获得IMO金牌但未经官方认证,谷歌结果获得IMO官方认可[6][81] - OpenAI模型未使用形式语言但依赖外部评委评分,谷歌采用端到端自然语言推理[25][88] - 两家公司在方法上各有侧重,但谷歌的官方认证结果更具权威性[95]
AI首夺数学奥赛金牌!谷歌Gemini闪耀IMO赛场 OpenAI同步“摘金”
智通财经网· 2025-07-22 21:28
谷歌AI模型表现 - 谷歌旗下Gemini Deep Think的先进版本在国际数学奥林匹克竞赛中解答了六道题目中的五道,总得分35分(满分42分),达到金牌级别表现[1] - 该模型以自然语言进行端到端运算,在4.5小时竞赛时限内直接根据题目描述完成严谨数学证明[1] - 去年谷歌DeepMind的AlphaProof和AlphaGeometry 2组合系统获得银牌,解答四道题得分28分[1] - 国际数学奥林匹克竞赛主席确认谷歌DeepMind达到里程碑,评委认为其解答清晰、准确且易于理解[2] - 谷歌计划在向Google AI Ultra订阅用户推出前,先向受信任测试人员(包括数学家)提供该模型版本[2] OpenAI实验模型进展 - OpenAI实验性推理大语言模型在国际数学奥林匹克竞赛评估中解答六道题中的五道,总得分35分(满分42分),达到金牌水平[2][3] - 评估采用与人类参赛者相同规则:两场4.5小时考试,禁用工具/网络,需阅读题目并以自然语言书写证明[2] - 每道题由三位国际数学奥林匹克竞赛奖牌获得者独立评分,最终分数经一致确认[3] - 该模型为实验性研究版本,未来几个月内无计划发布具备此数学能力的产品[3] 行业里程碑意义 - 这是人工智能系统首次在面向高中生的国际数学奥林匹克竞赛中跨越金牌得分门槛[3]
Altman 秀新模型“翻车”,谷歌补刀躺赢!OpenAI 前员工爆肝3天,编程再赢老东家模型!
AI前线· 2025-07-22 17:32
OpenAI新模型进展 - OpenAI近期测试多款未公开新模型 包括疑似GPT-5的o3-alpha-responses-2025-07-17模型和编程竞赛亚军模型OpenAIAHC [1][5][7][8][10] - o3 Alpha模型在Web开发测试中表现惊艳 仅上线5-6小时后下架 可能在未来几周正式发布 [5][7][8] - OpenAI CEO曾暗示公司内部有全球前50编程能力的模型 2025年底可能推出超人类级编程模型 [8] 国际数学奥林匹克竞赛表现 - OpenAI宣布实验性AI模型在IMO取得金牌成绩 达到前9%人类选手水平 在4.5小时限制下完成6道证明题 [2][3] - 谷歌DeepMind的Gemini Deep Think在IMO六题中答对五题 达到金牌水平 此前AlphaProof和AlphaGeometry 2仅获银牌 [2][4] - OpenAI因提前公布成绩和自行评分引发争议 被质疑违反IMO保密协议和评分标准 [3][4] 编程竞赛表现 - OpenAI的OpenAIAHC模型在AtCoder世界巡回赛总决赛中获得亚军 得分1,654,675,725,406 不敌人类冠军的1,812,272,588,909 [10][11][12] - 这是AI首次在顶级编程竞赛中进入前三名 展示出战略性推理和长期规划能力 [12][13] - 比赛采用10小时限时赛制 参赛者使用相同硬件 每次提交需间隔5分钟 [10] 行业动态 - 谷歌DeepMind CEO批评OpenAI过早公布IMO成绩 强调应尊重官方验证流程 [4] - 多家AI公司被IMO要求推迟至7月28日公布结果 但OpenAI提前宣布引发不满 [4] - 行业观察显示AI在编程和数学竞赛中进步显著 可能很快超越人类顶尖选手 [13]
DeepMind夺得IMO官方「唯一」金牌,却成为OpenAI大型社死现场
机器之心· 2025-07-22 12:25
技术突破 - 谷歌DeepMind新一代Gemini进阶版模型在IMO竞赛中达到金牌得主水平,成功解决六道超高难度试题中的五道,拿下35分(满分42分),成为首个获得奥赛组委会官方认定为金牌的AI系统[2] - 该系统首次证明人工智能无需依赖专业编程语言,仅通过自然语言理解即可攻克复杂数学难题[3] - 突破来自Gemini Deep Think增强型推理系统,采用并行思维技术,同时探索多种可能解决方案[6] - 模型以自然语言进行端到端运行,直接从官方问题描述中生成严格数学证明,并在比赛标准的4.5小时时限内完成任务[7] 行业对比 - 谷歌DeepMind成绩远超2024年表现,当时AlphaProof和AlphaGeometry系统组合解决六个问题中的四个,荣获银牌[4] - 谷歌谨慎发布方式赢得AI界广泛赞誉,与竞争对手OpenAI对类似成绩处理方式形成鲜明对比[11] - OpenAI因绕过官方竞赛规则提前官宣遭到批评,被指缺乏可信度[10][15] - DeepMind选择等待官方认可再发布成绩,赢得金牌和尊重,而OpenAI因时机与方式问题引发争议[25] 技术方法 - OpenAI研究科学家表示谷歌方法与其不同,说明存在多种研究方向[17] - OpenAI专注于不受Lean限制的自然语言通用推理研究,因此婉拒IMO基于Lean语言的正式比赛邀请[18] - OpenAI在通用推理方面取得进展,包括收集、整理和训练高质量数学数据,未使用RAG或任何工具[19] - OpenAI提交的每份证明由三位外部IMO奖牌获得者评分并获得一致正确性认可,证明已公开发布供验证[20][21] 行业影响 - 这场AI登上数学奥林匹克舞台的较量不仅是技术竞赛,更是关于规范、节奏与合作精神的展示[25] - 在通往AGI的路上,除了技术力,如何与人类社会的规则与价值观对齐正变得愈发重要[25] - AI推理能力正在快速发展,IMO结果确实表明了这一点[24]
全球首个IMO金牌AI诞生!谷歌Gemini碾碎奥数神话,拿下35分震惊裁判
猿大侠· 2025-07-22 11:33
核心观点 - 谷歌DeepMind的Gemini Deep Think模型在IMO竞赛中以自然语言方式破解5道题,获得35分(满分42分),达到金牌标准[3][4][22] - 该成绩获得IMO组委会官方认证,成为首个获此认可的AI系统[6][7][24] - 模型突破在于完全使用自然语言端到端推理,无需形式语言翻译,且在4.5小时比赛时限内完成[26][29] - 相比2024年AlphaProof和AlphaGeometry 2解决4题获28分(银牌)的表现有显著提升[17][19] - 技术核心是Deep Think增强推理模式,结合并行思考技术和强化学习训练[32][33][35] 技术实现 - 采用并行思考技术,同时探索多种解题路径并整合最优答案[33][34] - 通过新颖的强化学习训练,利用多步推理和定理证明数据提升能力[35] - 提供高质量数学问题解决方案集和IMO解题技巧作为知识库[42] - 模型即将向数学家测试者和Google AI Ultra订阅者开放[39] 解题案例 - 第一题(解析几何):通过设定引理和分类讨论,证明阳光线数量只能是0、1或3条[44][45][52] - 第二题(平面几何):分五步证明,包括确定旁心位置和引入辅助点性质[54][55][59] - 第三题(函数):通过上界证明c≤4和下界证明c≥4确定最小实数常数为4[65][66][67] - 第四题(数论):用五步证明序列性质,包括偶数性分析和动态行为研究[73][74][78] - 第五题(组合博弈):通过离散化策略和蓄力战术,确定Alice与Bazza的必胜条件区间[84][85][86] 行业影响 - IMO成为AI能力试炼场,数学推理能力接近顶尖人类水平[16][19] - 自然语言与形式化推理结合的AI将成为科研人员重要工具[105] - 谷歌与OpenAI的竞争凸显技术路线差异:官方认证vs自评结果[108][109][129] - OpenAI被质疑未获官方认证且提前公布结果,影响行业声誉[109][112][130] 团队背景 - 项目由Thang Luong领导,他是机器翻译深度学习先驱和注意力机制发明者[95][96][97] - 团队曾开发AlphaGeometry、LaMDA、Bard等知名项目[98]