产品发布与核心定位 - 谷歌DeepMind发布了Gemini 3 Deep Think的重大升级,该模型在多个领域刷新了SOTA(当前最优技术),标志着AI推理能力进入新维度 [2] - 该模型被定位为科学研究和硬核工程领域的“最强大脑”,旨在解决现代科学、研究和工程领域的难题 [5][40] 性能基准与竞赛表现 - 编程竞赛:在Codeforces平台上获得3455 Elo评分,达到世界冠军水准,排名相当于人类选手前10,全球仅7人评分高于它 [9][12] - 人类最后考试:在不使用工具的情况下,取得了48.4%的准确率,刷新SOTA [12][30] - ARC-AGI-2基准:以84.6%的准确率取得新SOTA,并使该基准直接“饱和” [13][30] - 国际数学奥林匹克:在2025年IMO中达到金牌水平,准确率为81.5% [30][35] - 国际物理与化学奥林匹克:在2025年理论部分分别取得87.7%和82.8%的成绩,具备金牌实力 [33][35] - 高级理论物理:在CMT-Benchmark测试中取得50.5%的成绩 [34][35] 对比竞争对手 - 与谷歌自家前代模型Gemini 3 Pro相比,Deep Think实现了全方位反超 [19] - 在多项基准测试中,其性能显著超越竞争对手Claude Opus 4.6和GPT-5.2 [19][20][35] 科研与工程应用能力 - 论文审阅:能够审查高深的物理数学论文,并发现连人类同行评审都遗漏的细微逻辑漏洞 [21][22] - 独立研究:基于初代Deep Think的“AI数学家”Aletheia可以独立撰写论文并证明难题,在Advanced Proofbench测试中取得91.9%的准确率 [28][30] - 材料科学:在杜克大学Wang Lab的测试中,成功设计出生长大于100 μm薄膜的配方,优化了复杂晶体生长的制造方法,用于潜在的半导体材料发现 [44][45] - 工业设计与3D建模:能够将草图渲染成高保真的3D模型(如笔记本电脑支架),并生成可打印的文件,据称让物理零部件建模加速十倍 [6][47][48] - 架构可视化:能够根据学术论文为复杂架构(如“时空循环视频Transformer”)创建可视化方案 [37] 多模态与创意生成能力 - 物理模拟与3D渲染:展现出超强的物理模拟能力,可在单个HTML文件中构建完整的Three.js场景,渲染出高保真3D室内房间 [53][56] - 矢量图生成:能够生成高度复杂且符合详细生物学特征的SVG矢量图(如具备繁殖羽特征的加州褐鹈鹕骑自行车) [59][62][63] 发布与获取方式 - 目前,Google AI Ultra订阅用户可在Gemini中体验新版Deep Think [24] - 谷歌首次通过API向部分研究人员、工程师和企业开放该模型 [24]
清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它