谷歌夺回王座:Gemini 3.1 Pro来了!姚顺宇:后面还有更好的
机器之心·2026-02-20 07:43

产品发布与定位 - 谷歌正式推出其核心AI模型的升级版Gemini 3.1 Pro,旨在应对科学、研究和工程领域的复杂挑战 [1][4] - 该模型是Gemini 3系列的一部分,在核心推理能力上实现了进一步跃升,为构建自主智能体提供了更可靠的基础 [4][6] - 谷歌表示,3.1 Pro的设计初衷是为了应对“简单答案”解决不了的问题,将先进的推理能力转化为实用的工具 [20] 性能表现与基准测试 - 在评估全新逻辑模式能力的ARC-AGI-2基准测试中,3.1 Pro取得了经验证的77.1%的成绩,其推理性能是前代3 Pro(31.1%)的两倍以上 [5][6] - 在科学知识(GPQA钻石级)测试中得分为94.3% [6][8] - 在编码能力方面,在LiveCodeBench Pro上的Elo得分为2887,在SWE-Bench Verified上得分为80.6% [6][8] - 在多模态理解(MMMLU)测试中达到了92.6% [6][8] - 在长上下文性能测试中,对于1M token的评估取得了26.3%的成绩 [6] - 在终端代理编码(Terminal-Bench 2.0)测试中得分为68.5% [6] - 在长周期专业任务(APEX-Agents)测试中得分为33.5%,较3 Pro的18.4%有显著提升 [6] - 在代理式搜索(BrowseComp)测试中,使用搜索+Python+浏览工具组合得分为85.9% [6] - 第三方公司Artificial Analysis的评估表明,Gemini 3.1 Pro已跃居榜首,成为世界上功能最强大、性能最佳的AI模型 [7] 应用场景与能力展示 - 模型能够将复杂主题可视化、整理零散数据,并将创意项目化为现实 [12] - 基于代码的动画:可根据文字提示生成网站可用的、自带动效的SVG图片,文件体积小且无限清晰 [21] - 复杂系统整合:能运用强大推理能力,在复杂API和用户友好设计间架起桥梁,例如搭建实时航空仪表盘接入公共遥测数据流 [22] - 交互式设计:能编写复杂的3D椋鸟群飞模拟代码,并支持通过手势追踪控制鸟群飞行,同时生成实时变化的配乐 [23] - 创意编程:能将文学主题转化为实用代码,例如为《呼啸山庄》构建一个能精准捕捉小说基调与主人公精神内核的现代风格作品集网站 [24] 部署与定价策略 - 目前,谷歌正在将3.1 Pro作为预览版部署到面向消费者和开发者的各类产品中 [15][26] - 面向开发者:通过Google AI Studio中的Gemini API、Gemini CLI、智能体开发平台Google Antigravity以及Android Studio提供预览 [17] - 面向企业:上线Vertex AI和Gemini Enterprise [17] - 面向消费者:通过Gemini应用程序(APP)和NotebookLM推出,并逐步面向Google AI Pro和Ultra套餐用户开放更高使用额度 [17][26] - 输入定价:提示词不超过20万token,每百万token收费2.00美元;超过20万token,每百万token收费4.00美元 [17] - 输出定价:提示词不超过20万token,每百万token收费12.00美元;超过20万token,每百万token收费18.00美元 [17] - 上下文缓存:根据提示词规模,每百万token收取0.20至0.40美元,外加每小时每百万token 4.50美元的存储费 [17] - 联网搜索(Grounding):每月前5000次提示免费,之后每1000次搜索查询收费14美元 [18] 行业反馈与未来计划 - 谷歌的企业合作伙伴已开始整合3.1 Pro预览版,并称其在可靠性和效率方面有显著提升 [16] - Databricks首席技术官称,3.1 Pro在针对表格和非结构化数据进行基于事实推理的基准测试OfficeQA上取得了“同类最佳结果” [16] - Cartwheel联合创始人指出,该模型对3D变换的理解有显著提升,解决了3D动画管线中长期存在的旋转顺序漏洞等问题 [16] - 谷歌表示,后续还会有更好的模型源源不断地涌现 [3] - 下一步计划是在自主工作流等领域寻求进一步突破,之后将正式全面开放使用 [26]