谷歌模型重大升级!清华系姚顺宇参与
第一财经·2026-02-13 16:50

谷歌Gemini 3 DeepThink模型重大升级 - 谷歌于北京时间2月13日发布了Gemini 3 DeepThink的重大升级,该模式是专门用于解决科学、工程领域复杂任务的推理模式 [3] - 谷歌CEO表示,公司通过与科学家和研究人员紧密合作对DeepThink进行改进,以应对缺乏明确原则、数据杂乱等现实挑战,旨在将科学知识与工程实践结合以推动实际应用 [5] - 此次升级使DeepThink模式更进一步,能够支持研发人员开展研究级的数学探索工作 [7] 模型性能表现与基准测试结果 - 该模型在多项基准测试中创下新纪录,超越了Claude Opus 4.6、GPT-5.2以及谷歌自家的Gemini 3 Pro Preview [6] - 在“人类最后的考试”测试中,DeepThink取得了48.4%的成绩(不使用工具),刷新最佳纪录,而Claude Opus 4.6和GPT-5.2的成绩分别为40%和34.5% [6] - 在ARC-AGI-2测试中,DeepThink取得了前所未有的84.6%的成绩,此前最强模型得分在60%-70%之间,Claude Opus 4.6的成绩是68.8% [6][8] - 在竞技编程基准测试平台Codeforces中,DeepThink的Elo评分为3455分,相当于全球编程能力前8的水平 [6] - 该模型在化学和物理等科学领域表现出色,在2025年国际物理和化学奥林匹克竞赛的笔试部分取得了金牌级别的成绩 [6] 实际应用案例展示 - 罗格斯大学的一位数学家利用DeepThink审阅一篇高度专业的数学论文,模型成功识别出一个此前人工同行评审均未发现的细微逻辑缺陷 [8] - DeepThink被用于优化复杂晶体生长的制备方法以探索新的半导体材料,在杜克大学的案例中,其设计的方案培育出了尺寸超过100微米的薄膜,技术指标超过此前所有方法 [8] - 该模型能够分析图纸、对复杂形状进行建模并生成文件,以通过3D打印创建物理对象 [8] - 模型旨在推动实际应用,使研究人员能解释复杂数据,使工程师能通过代码对物理系统进行建模 [8] 行业反响与产品发布 - 行业从业者对模型在ARC-AGI-2测试中取得84.6%的得分感到震惊,因为大多数人在此类抽象推理题上都很难达到80%的正确率 [8] - 有AI从业者认为,若模型在识别新模式方面达到如此水平,应称之为“外星智能”而非聊天机器人,并指出其Codeforces的Elo 3455分属于“传奇大师”级别 [9] - 有谷歌前工程师评论,模型能发现人类审稿人忽略的逻辑缺陷,意味着它已从辅助工具转变为合作者,跨越了人工智能辅助与验证研究人员工作的界限 [9][10] - 谷歌表示,DeepThink现已在Gemini应用中上线,供Google AI Ultra订阅用户使用,并首次通过Gemini API向部分研究人员、工程师和企业开放使用权限 [10] 核心研发团队 - 去年9月加入谷歌DeepMind的清华物理系知名研究者姚顺宇是这次DeepThink新模型的核心参与者 [3]