产品发布与定位 - Google宣布对Gemini 3 Deep Think进行重大升级,这是一款专为解决科学、研究和工程挑战而设计的推理模型[1][15] - 该模型旨在弥合深奥科学理论与日常工程应用之间的鸿沟,核心在于“深度思考”能力的进化,着重解决缺乏明确边界、数据混乱或不完整的复杂问题[1][16] - 目前,Google AI Ultra订阅用户已可在Gemini App中使用该更新版本,同时Google首次向选定的研究人员、工程师和企业开放了Gemini API的Deep Think早期访问权限[1][15] 核心性能与基准测试 - 在“Humanity‘s Last Exam”基准测试中,该模型在不使用额外工具的情况下达到了48.4%的准确率,树立了新的行业标准[1][16] - 在ARC-AGI-2测试中,该模型取得了84.6%的前所未有的高分,这一成绩在通用人工智能推理领域具有重要意义[2][4][16] - 在Codeforces编程挑战中,该模型的Elo等级分高达3455分[4][18] - 在2025年国际数学奥林匹克竞赛中达到了金牌水平[4][18] - 根据基准测试表格,该模型在多项测试中领先于竞争对手,如在MMMU-Pro测试中得分为81.5%,高于Claude Opus 4.6的73.9%和GPT-5.2的79.5%[13][26] 科研与工程应用实例 - 罗格斯大学的数学家将该模型应用于高能物理数学结构审查,成功识别出一篇高度技术性数学论文中此前未被人类发现的微妙逻辑漏洞,该发现对于连接爱因斯坦引力理论与量子力学具有潜在价值[5][18] - 杜克大学的Wang Lab利用该模型优化了复杂晶体生长的制造方法,成功设计出了一套生长大于100微米薄膜的配方,解决了以往方法难以应对的挑战[6][18] - 该模型展示了将手绘草图转化为实体对象的能力,用户提供草图后,模型可分析图纸、建立复杂3D形状模型并生成可直接用于3D打印的文件,大幅压缩从概念到物理原型的转化过程[8][10][19][21][23] 跨学科能力表现 - 该模型在化学和物理等广泛科学领域表现出色,在2025年国际物理奥林匹克和化学奥林匹克的笔试部分均达到了金牌水平[12][25] - 在针对高级理论物理的CMT-Benchmark测试中,获得了50.5%的分数,显示出处理复杂科学领域的熟练度[13][26] - 根据基准测试表格,该模型在国际化学奥林匹克竞赛理论部分得分为82.8%,在国际物理奥林匹克竞赛理论部分得分为87.7%[13][26] 行业影响与趋势 - 此次更新标志着AI模型正从通用的聊天助手,加速向专业的科研与工程辅助工具转型[14][27]
Gemini 3 Deep Think 发布:1张草图直接获得3D模型