清华传奇姚顺宇立功,全新Gemini一夜血洗编程,全球仅7人能赢它
36氪·2026-02-13 12:29

谷歌Gemini 3 Deep Think模型发布 - 谷歌DeepMind发布Gemini 3 Deep Think模型,在多个领域刷新了SOTA(State-of-the-Art)记录,标志着AI推理能力进入全新维度 [1] - 该模型在短短三个月内实现全方位性能突破 [1] 核心性能与基准测试结果 - 编程与算法:在Codeforces竞赛中获得3455 Elo评分,达到世界冠军级水准,在全球人类排名中位列第7,击败了绝大多数人类选手 [7][8][10] - 抽象推理:在ARC-AGI-2基准测试中获得84.6%的准确率,刷新SOTA,并获得ARC奖项基金会验证 [11][12][17] - 综合学术推理:在“人类最后考试”(Humanity‘s Last Exam)基准测试中,在不使用工具的情况下获得48.4%的准确率 [10][21] - 多模态理解:在MMMU-Pro基准测试中获得81.5%的准确率 [21][34] - 数学:在2025年国际数学奥林匹克(IMO)基准测试中获得81.5%的准确率,达到金牌水平 [21][33][34] - 物理:在2025年国际物理奥林匹克(理论)基准测试中获得87.7%的准确率 [21][34] - 化学:在2025年国际化学奥林匹克(理论)基准测试中获得82.8%的准确率 [21][34] - 凝聚态物理理论:在CMT-Benchmark测试中获得50.5%的准确率 [21][34] 与竞争对手的对比 - 在ARC-AGI-2基准测试中,Gemini 3 Deep Think(84.6%)的表现远超Gemini 3 Pro Preview(31.1%)、Claude Opus 4.6 Thinking Max(68.8%)和GPT-5.2 Thinking xhigh(52.9%) [17][21] - 在Codeforces Elo评分上,Gemini 3 Deep Think(3455)显著高于Gemini 3 Pro Preview(2512)和Claude Opus 4.6 Thinking Max(2352) [21][34] - 在高级数学证明(Advanced ProofBench)基准测试中,基于Deep Think的“AI数学家”Aletheia获得91.9%的准确率,远超GPT-5.2 Thinking high(35.7%)和Gemini 3 Pro(30.0%) [30] 科研与工程应用能力 - 科研辅助:能够审查高深学术论文,并发现人类同行评审遗漏的细微逻辑漏洞 [23] - 工业设计:可以根据草图渲染高保真、实用的3D模型(如笔记本电脑支架),并直接生成可3D打印的文件,将物理零部件建模速度提升十倍 [3][39] - 实验优化:在杜克大学Wang Lab的测试中,成功设计出生长大于100 μm薄膜的配方,用于潜在的半导体材料发现 [39] - 物理模拟:展现出强大的物理模拟能力,可以模拟光线追踪,并在单个HTML文件中构建完整的Three.js场景 [40][41][42] - 创意生成:能够生成复杂且细节丰富的SVG矢量图像(如具有特定品种特征的鹈鹕骑自行车) [44][45][48] 技术进展与突破 - 基于初代Deep Think的“AI数学家”Aletheia已能独立撰写论文,证明了“Erdős猜想”中的多个难题,并一举攻克18大研究瓶颈 [29] - 模型在ARC-AGI-1基准测试上已达到接近饱和的**96.0%**准确率 [12][35] - 模型能够根据论文描述,为复杂的“时空循环视频Transformer”架构创建可视化方案 [36] 发布与可用性 - 目前,Google AI Ultra订阅用户可在Gemini中体验新版Deep Think [25] - 谷歌首次通过API向部分研究人员、工程师和企业开放该模型 [25] - 核心研发团队包括从Anthropic离职加入谷歌的华人学者姚顺宇 [3]

清华传奇姚顺宇立功,全新Gemini一夜血洗编程,全球仅7人能赢它 - Reportify