谷歌模型重大升级！清华系姚顺宇参与

谷歌Gemini 3 DeepThink模型重大升级 - 谷歌于北京时间2月13日发布了Gemini 3 DeepThink的重大升级，该模式是专门用于解决科学、工程领域复杂任务的推理模式 [3] - 谷歌CEO表示，公司通过与科学家和研究人员紧密合作对DeepThink进行改进，以应对缺乏明确原则、数据杂乱等现实挑战，旨在将科学知识与工程实践结合以推动实际应用 [5] - 此次升级使DeepThink模式更进一步，能够支持研发人员开展研究级的数学探索工作 [7] 模型性能表现与基准测试结果 - 该模型在多项基准测试中创下新纪录，超越了Claude Opus 4.6、GPT-5.2以及谷歌自家的Gemini 3 Pro Preview [6] - 在“人类最后的考试”测试中，DeepThink取得了48.4%的成绩（不使用工具），刷新最佳纪录，而Claude Opus 4.6和GPT-5.2的成绩分别为40%和34.5% [6] - 在ARC-AGI-2测试中，DeepThink取得了前所未有的84.6%的成绩，此前最强模型得分在60%-70%之间，Claude Opus 4.6的成绩是68.8% [6][8] - 在竞技编程基准测试平台Codeforces中，DeepThink的Elo评分为3455分，相当于全球编程能力前8的水平 [6] - 该模型在化学和物理等科学领域表现出色，在2025年国际物理和化学奥林匹克竞赛的笔试部分取得了金牌级别的成绩 [6] 实际应用案例展示 - 罗格斯大学的一位数学家利用DeepThink审阅一篇高度专业的数学论文，模型成功识别出一个此前人工同行评审均未发现的细微逻辑缺陷 [8] - DeepThink被用于优化复杂晶体生长的制备方法以探索新的半导体材料，在杜克大学的案例中，其设计的方案培育出了尺寸超过100微米的薄膜，技术指标超过此前所有方法 [8] - 该模型能够分析图纸、对复杂形状进行建模并生成文件，以通过3D打印创建物理对象 [8] - 模型旨在推动实际应用，使研究人员能解释复杂数据，使工程师能通过代码对物理系统进行建模 [8] 行业反响与产品发布 - 行业从业者对模型在ARC-AGI-2测试中取得84.6%的得分感到震惊，因为大多数人在此类抽象推理题上都很难达到80%的正确率 [8] - 有AI从业者认为，若模型在识别新模式方面达到如此水平，应称之为“外星智能”而非聊天机器人，并指出其Codeforces的Elo 3455分属于“传奇大师”级别 [9] - 有谷歌前工程师评论，模型能发现人类审稿人忽略的逻辑缺陷，意味着它已从辅助工具转变为合作者，跨越了人工智能辅助与验证研究人员工作的界限 [9][10] - 谷歌表示，DeepThink现已在Gemini应用中上线，供Google AI Ultra订阅用户使用，并首次通过Gemini API向部分研究人员、工程师和企业开放使用权限 [10] 核心研发团队 - 去年9月加入谷歌DeepMind的清华物理系知名研究者姚顺宇是这次DeepThink新模型的核心参与者 [3]