物理奥赛金牌随便拿,谷歌发了一个“科研合伙人”模型,月费1800元
36氪·2026-02-13 18:30

核心观点 - 谷歌发布Gemini 3 Deep Think推理增强版本,标志着AI从对话工具进化为科研与工程领域的“科研合伙人”,通过引入“推理时计算”模式,显著提升了处理复杂逻辑、系统级问题和跨学科任务的能力 [1][6] 产品发布与定价 - 谷歌于2月13日正式发布Gemini 3 Deep Think推理增强版本,该版本在原有架构基础上升级了推理机制 [1] - 面向个人专业用户的最高档Google AI Ultra计划,订阅费用为249.99美元/月(约合人民币1800元),提供不限次数的深度推理权限、30TB存储空间及最高优先级算力响应 [1] - 面向开发者和企业的API接入按使用量计费,输入每百万tokens收费2美元,输出每百万tokens收费12美元 [1] 技术能力与性能基准 - 模型技术原型在2025年国际数学奥林匹克竞赛中,于4.5小时内通过纯自然语言推理完成6道题中的5道,获得35分,达到金牌选手水平 [2] - 在Codeforces竞技编程平台上取得3455 Elo评分,稳居“Legendary Grandmaster”等级,表明其复杂算法设计与问题求解能力处于全球顶尖 [4] - 在ARC-AGI-2测试中取得84.6%的创纪录成绩,证明模型具备少样本抽象归纳与逻辑发现能力,摆脱了对语料库的单纯依赖 [4] - 在Humanity‘s Last Exam测试中取得48.4%的成绩,在CMT Benchmark中取得50.5%的成绩 [4] - 核心技术创新在于“推理时计算”模式,模型在输出前会内部构建并模拟多种解法路径,执行实时一致性自检与逻辑回溯,实现了“慢思考”机制 [6] 科研应用场景 - 罗格斯大学数学家使用Deep Think审阅高能物理领域的专业数学论文,模型发现了一处此前未被同行评审识别的细微逻辑缺陷,并能整合跨文档信息进行一致性判断 [10] - 杜克大学Wang Lab利用Deep Think优化复杂晶体生长的制造方法,设计出可生长厚度超过100微米薄膜的实验方案,助力潜在半导体材料研发 [11] - 在科研领域,AI角色正从辅助检索工具转向具备自主逻辑发现能力的“科研合伙人”,并通过如Aletheia等专业智能体架构实现跨越 [10] 工程应用场景 - 谷歌Platforms and Devices部门研发负责人使用Deep Think加速物理组件设计,模型能根据手绘草图自动识别空间拓扑、几何约束及关键尺寸,并生成OpenSCAD与Python格式的可执行建模脚本,最终驱动3D打印设备输出实物模型 [13] - 模型在多文件系统级代码分析中展现出能力,可识别变量引用关系、函数调用依赖及潜在边界条件问题,并提供修改建议,能处理复杂工程项目的整体架构 [13] - 官方演示显示,Deep Think能够通过同一条推理链条,跨场景统一应用于科研论文分析、材料实验设计、工程建模及复杂代码系统验证 [13] 行业集成与生态 - 随着Deep Think发布,Gemini API早期访问计划同步启动,允许企业与科研机构将模型接入内部数据库 [14] - 模型接入后的应用方向包括电路逻辑一致性检查、数学推导辅助验证、实验数据结构分析以及软件系统边界条件排查 [14] - 公司将优先支持能源建模、新材料研发和生物医药领域的科研与工业团队 [14]