Workflow
Gemini3DeepThink
icon
搜索文档
谷歌模型重大升级!清华系姚顺宇参与,从业者称是“外星智能”
第一财经· 2026-02-13 16:23
产品发布与核心定位 - 谷歌于北京时间2月13日发布了Gemini 3 DeepThink的重大升级,该模型是专门用于解决科学、工程领域复杂任务的推理模式 [1] - 公司CEO表示,该模型旨在应对缺乏明确指导原则、数据杂乱不完整的棘手现实挑战,并将科学知识与日常工程实践相结合以推动实际应用 [6] - DeepThink模型现已在Gemini应用中上线,供Google AI Ultra订阅用户使用,并首次通过Gemini API向部分研究人员、工程师和企业开放使用权限 [9] 性能表现与基准测试 - 新模型在多项基准测试中创下新纪录,超越了Claude Opus 4.6、GPT-5.2以及自家的Gemini 3 Pro Preview [6] - 在“人类最后的考试”测试中,DeepThink取得了48.4%的成绩,不使用工具,刷新了该测试的最佳纪录,对比Claude Opus 4.6的40%和GPT-5.2的34.5% [6] - 在ARC-AGI-2测试中,DeepThink取得了前所未有的84.6%的成绩,此前最强模型得分在60%-70%之间,Claude Opus 4.6的成绩为68.8% [6] - 在竞技编程基准测试平台Codeforces中,DeepThink的Elo评分为3455分,这一分数相当于在全球编程能力上能排进前8 [6] 学术与科研能力 - 在2025年国际物理和化学奥林匹克竞赛的笔试部分,该模型取得了金牌级别的成绩 [7] - 模型支持研发人员开展研究级的数学探索工作,其定制版本此前已在国际数学和编程锦标赛中达到金牌水准 [7] - 罗格斯大学的数学家利用DeepThink审阅一篇高度专业的数学论文,模型成功识别出了一个此前人工同行评审均未发现的细微逻辑缺陷 [7] - 在杜克大学的案例中,DeepThink被用于优化复杂晶体生长的制备方法以探索新的半导体材料,其设计的方案培育出了尺寸超过100微米的薄膜,技术指标超过此前所有方法 [7] 实际应用与行业影响 - 模型旨在使研究人员能够解释复杂数据,使工程师能够通过代码对物理系统进行建模 [8] - 例如,DeepThink可对图纸进行分析,对复杂形状进行建模,并生成文件以通过3D打印创建物理对象 [8] - 行业从业者对模型在ARC-AGI-2测试中达到84.6%的得分感到震惊,因为大多数人在这类抽象推理题上很难达到80%的正确率 [8] - 有评论认为,模型能发现人类审稿人忽略的逻辑缺陷,标志着人工智能从辅助工具向合作者的角色跨越 [8]