姚顺宇谷歌首秀,Gemini新模型刷爆SOTA:人类仅剩7人捍卫碳基编程
量子位·2026-02-13 13:42

谷歌Gemini 3 Deep Think模型重大升级 - 面对Claude Opus 4.6和GPT Codex 5.3的竞争,谷歌推出了Gemini 3 Deep Think的重大升级[1] 在多项基准测试中刷新纪录 - 在Codeforces竞技编程平台上取得3455 Elo分数,相当于世界第8名[2] - 在ARC-AGI-2基准测试中取得史无前例的84.6%得分,远超之前最强模型的60%-70%区间以及Claude Opus 4.6的68.8%[3] - 在人类最后考试上刷新SOTA,取得48.4%的成绩[4] - 在2025年国际数学奥林匹克竞赛中达到金牌水平,取得81.5%的成绩[5][22] - 在2025年国际物理奥林匹克竞赛笔试部分取得87.7%的成绩,达到金牌级别[5][33] - 在2025年国际化学奥林匹克竞赛笔试部分取得82.8%的成绩,达到金牌级别[5][33] - 在CMT-Benchmark凝聚态理论测试中取得50.5%的分数[5][34] - 在MMMU-Pro多模态理解与推理测试中取得81.5%的成绩[5] - 在学术推理测试中取得53.4%的成绩[5] - 在ARC-AGI-1测试中取得96%的成绩,直接顶到天花板[27] 性能与成本优势显著 - 推理成本大幅下降,从初代Deep Think每项任务77.16美元降至13.62美元,降幅达82%[29] - ARC-AGI-2测试得分在不到三个月内从初代的45.1%飙升至84.6%[26] - 由于ARC-AGI-1和2均被刷爆,ARC Prize已在构建ARC-AGI-3[32] 定位为科研与工程助手 - 新版Deep Think旨在推动智能前沿发展,并解决科学、研究和工程领域的现代挑战[5] - 其野心不止于赢得基准测试,而是要走进科研和工程领域,帮助工程师处理复杂任务[7] - 模型可以分析草图,对复杂形状进行建模,并直接生成用于3D打印的实体文件[8] - 罗格斯大学数学家利用其审阅高度专业的数学论文,并成功识别出一个此前人工评审均未发现的细微逻辑缺陷[10][11] - 杜克大学实验室利用其优化复杂晶体生长的制备方法,成功设计出能生长厚度大于100微米薄膜的工艺,达到了以往方法难以企及的精确目标[13][14] - DeepSeek研究员表示其非常擅长处理科学领域中的长尾任务,例如输入复杂分子结构图片后能准确计算出分子式[16][17] 研发团队背景 - 研发团队中有不少华人身影[36] - 核心成员包括95后华人科学家Yi Tay,他在Gemini团队从事强化学习和推理方向研究,曾共同领导Google Brain的早期大语言模型项目,并曾联合创办AI独角兽公司Reka AI,后重返谷歌DeepMind担任高级资深研究科学家[37][38] - 另一位关键参与者是清华物理系传奇特奖得主姚顺宇,他于去年9月从Anthropic跳槽加入谷歌DeepMind,参与了此次新模型的开发[6][39] - 姚顺宇本科期间已在《Physical Review Letters》发表高水平论文,博士毕业于斯坦福大学,师从知名学者,在Anthropic期间参与了Claude系列模型的强化学习理论工作,此次Deep Think新模型是他在谷歌的首秀之作[41][42]