产品发布与升级 - 谷歌对其Gemini 3 AI大模型的Deep Think(深度思考)模式进行了重大升级,聚焦于解决现代科学研究与工程领域的复杂挑战[1] - 新的Deep Think模式现已在Gemini 3系列AI应用产品中面向Google AI Ultra订阅用户开放[1] - 这是公司首次通过Gemini API向部分研究人员、工程师及大型企业提供Deep Think功能[1] - 该模式此前已于2025年11月作为Gemini 3 AI应用产品套件的一部分正式发布[4] 核心功能与应用场景 - 更新后的Deep Think模式可以将草图变为可3D打印的现实物体,拥有强大的能力分析图纸、对复杂形状建模,并生成可用于3D打印的文件[1] - 该模式旨在推动实际应用,使研究人员能够深度解读复杂数据,并使工程师能够通过代码与编程对复杂物理系统进行建模[2] - 其定位是从“偏抽象的高强度推理”进一步推向“能在真实科研与工程流程中落地”的专业推理引擎,帮助用户在边界不清、数据不完备、目标函数复杂的场景下更快逼近可验证的结论与可执行方案[2] - 该模式更容易被嵌入企业研发链条,例如数据分析、仿真建模、代码驱动物理系统建模、自动化实验/设计迭代等[8] 性能表现与基准测试 - 在Humanity's Last Exam(无工具)上达到48.4%,被官方描述为在这一基准上设定了新的行业标准[2][5][7] - 在ARC-AGI-2上取得经ARC Prize基金会验证的84.6%[2][5][7] - 在Codeforces竞技编程基准中获得3455 Elo[2][5] - 在2025年国际物理奥林匹克竞赛与化学奥林匹克竞赛的笔试部分取得了金牌水平的最强劲大模型测试结果[4][5][6] - 在更偏学术的CMT-Benchmark(凝聚态理论)上取得50.5%的分数[4][6] - 去年该模型在数学与编程世界锦标赛中达到了金牌水平[5] 技术特点与能力扩展 - Deep Think的强项已不再局限于数学/编程,开始具备跨学科科研问题所需的“物理直觉+化学结构化推断+数学形式化表达+代码化求解”的组合能力[4] - 其关键不在于“记忆更多知识”,而在于推理过程的结构化与可扩展的推理算力,通过迭代式推理在多个假设空间并行探索,并在“生成—验证—修正”的闭环中不断收敛[8] - 公司披露了以Deep Think驱动的研究型代理,用自然语言验证器去抓逻辑漏洞、触发重写,这类“强验证/强回路”机制是把AI大模型从“会说”推向“能做研究/能做工程”的核心路径[8] 市场定位与竞争 - 谷歌的Gemini与多款AI产品竞争,包括OpenAI的ChatGPT以及Anthropic的Claude[7] - 此次更新被视作全球新一轮“Gemini热潮”的点火器,其“硬指标+明确应用场景”的组合,更容易形成话题聚拢效应与开发者/机构的注意力回流[7]
“Gemini热潮”再度席卷全球! 谷歌(GOOGL.US)Deep Think“硬核升级”直指大型科研工程