Gemini3DeepThink - 财报，业绩电话会，研报，新闻

Gemini3DeepThink

搜索文档

第一财经· 2026-02-13 16:23

产品发布与核心定位 - 谷歌于北京时间2月13日发布了Gemini 3 DeepThink的重大升级，该模型是专门用于解决科学、工程领域复杂任务的推理模式 [1] - 公司CEO表示，该模型旨在应对缺乏明确指导原则、数据杂乱不完整的棘手现实挑战，并将科学知识与日常工程实践相结合以推动实际应用 [6] - DeepThink模型现已在Gemini应用中上线，供Google AI Ultra订阅用户使用，并首次通过Gemini API向部分研究人员、工程师和企业开放使用权限 [9] 性能表现与基准测试 - 新模型在多项基准测试中创下新纪录，超越了Claude Opus 4.6、GPT-5.2以及自家的Gemini 3 Pro Preview [6] - 在“人类最后的考试”测试中，DeepThink取得了48.4%的成绩，不使用工具，刷新了该测试的最佳纪录，对比Claude Opus 4.6的40%和GPT-5.2的34.5% [6] - 在ARC-AGI-2测试中，DeepThink取得了前所未有的84.6%的成绩，此前最强模型得分在60%-70%之间，Claude Opus 4.6的成绩为68.8% [6] - 在竞技编程基准测试平台Codeforces中，DeepThink的Elo评分为3455分，这一分数相当于在全球编程能力上能排进前8 [6] 学术与科研能力 - 在2025年国际物理和化学奥林匹克竞赛的笔试部分，该模型取得了金牌级别的成绩 [7] - 模型支持研发人员开展研究级的数学探索工作，其定制版本此前已在国际数学和编程锦标赛中达到金牌水准 [7] - 罗格斯大学的数学家利用DeepThink审阅一篇高度专业的数学论文，模型成功识别出了一个此前人工同行评审均未发现的细微逻辑缺陷 [7] - 在杜克大学的案例中，DeepThink被用于优化复杂晶体生长的制备方法以探索新的半导体材料，其设计的方案培育出了尺寸超过100微米的薄膜，技术指标超过此前所有方法 [7] 实际应用与行业影响 - 模型旨在使研究人员能够解释复杂数据，使工程师能够通过代码对物理系统进行建模 [8] - 例如，DeepThink可对图纸进行分析，对复杂形状进行建模，并生成文件以通过3D打印创建物理对象 [8] - 行业从业者对模型在ARC-AGI-2测试中达到84.6%的得分感到震惊，因为大多数人在这类抽象推理题上很难达到80%的正确率 [8] - 有评论认为，模型能发现人类审稿人忽略的逻辑缺陷，标志着人工智能从辅助工具向合作者的角色跨越 [8]