谷歌Gemini 3 Deep Think模型性能突破 - 在Codeforces竞技编程平台上取得3455 Elo分数,相当于全球排名第8位,全球仅有7人的编程水平排在其前[1][2] - 在公认测试AI推理能力的前沿基准ARC-AGI-2上取得史无前例的84.6%得分,该成绩已经ARC Prize基金会验证[3][4][15] - 在Humanity's Last Exam基准测试中刷新SOTA,取得48.4%的成绩[3][4] - 在2025年国际数学奥林匹克竞赛中达到金牌水平,取得81.5%的成绩[4][15][26] - 在2025年国际物理奥林匹克竞赛笔试部分取得87.7%的成绩,在2025年国际化学奥林匹克竞赛笔试部分取得82.8%的成绩,均达到金牌级别[4][24][26] - 在MMMU-Pro多模态理解与推理基准测试中取得81.5%的成绩[4][26] - 在凝聚态理论基准CMT-Benchmark中取得50.5%的成绩[4][24][26] - 相比去年12月发布的初代Deep Think在ARC-AGI-2上45.1%的得分,新版模型在不到三个月内性能大幅提升至84.6%[19] - 在ARC-AGI-1基准上取得了96%的成绩[19] - 模型推理成本大幅降低,从初代Deep Think每项任务77.16美元的成本降低了82%,降至每项任务仅需13.62美元[21] 行业竞争格局与基准测试进展 - 在关键基准测试中,Gemini 3 Deep Think性能显著超越主要竞争对手:在ARC-AGI-2上优于Claude Opus 4.6的68.8%和GPT-5.2的52.9%[3][4] - 在Humanity's Last Exam基准上,Gemini 3 Deep Think的48.4%成绩优于Claude Opus 4.6的40.0%和GPT-5.2的34.5%[4][26] - 在Codeforces Elo评分上,Gemini 3 Deep Think的3455分显著高于Gemini 3 Pro Preview的2512分和Claude Opus 4.6的2352分[4][26] - 由于模型在ARC-AGI-1和ARC-AGI-2上表现卓越,ARC Prize基金会已在构建更难的ARC-AGI-3基准[24] 模型在科研与工程领域的实际应用 - 模型能够分析草图,对复杂形状进行建模,并直接生成用于3D打印的实体文件,例如成功打印了一个笔记本电脑支架[7] - 罗格斯大学的数学家利用该模型审阅高度专业的数学论文,成功识别出一个此前人工同行评审均未发现的细微逻辑缺陷[9] - 杜克大学的王安实验室利用该技术优化了复杂晶体生长的制备方法,成功设计出一种能够生长厚度大于100微米薄膜的工艺,达到了以往方法难以企及的精确目标[10] - 模型擅长处理科学领域中的长尾任务,例如根据输入的复杂分子结构图片准确计算出分子式[11] - 官方表示,新版Deep Think是专门开发的推理模式,旨在推动智能前沿发展,并解决科学、研究和工程领域的现代挑战[4] 核心研发团队与人才背景 - 核心研发团队中有不少华人科学家,包括95后华人科学家Yi Tay,他在团队中从事强化学习和推理方向的研究工作[27] - Yi Tay曾在Google Brain共同领导早期大语言模型项目,包括PaLM-2、UL2和Flan-2,后作为联合创始人创办AI独角兽初创公司Reka,并于一年半后重返谷歌DeepMind担任高级资深研究科学家[28] - 另一位关键参与者是清华物理系传奇特奖得主姚顺宇,他于去年9月加入谷歌DeepMind,参与了Deep Think新模型的开发[5][28] - 姚顺宇本科期间已在《Physical Review Letters》发表高水平论文,首次在国际上给出了关于非厄米系统的拓扑能带理论,博士毕业于斯坦福大学,师从知名学者,在加入谷歌前曾于Anthropic参与Claude系列模型的研发[29][30]
姚顺宇谷歌首秀,Gemini新模型刷爆SOTA:人类仅剩7人捍卫碳基编程