文章核心观点 - 谷歌发布Gemini 3.1 Pro模型,相较于去年11月发布的3 Pro,虽为小版本号更新,但在核心推理能力、多模态生成、语义理解及长上下文处理等方面实现了显著提升,性能表现强劲,获得用户积极反馈 [1][9][27] - Gemini 3.1 Pro的发布,在提升性能的同时保持了与上一代模型持平的价格,显著优化了成本效益,推动了行业在“帕累托前沿”上的进步,即追求最小化成本与最大化性能 [35][36][39] Gemini 3.1 Pro的核心性能升级 - 推理能力大幅增强:在ARC-AGI-2基准测试中,Gemini 3.1 Pro获得77.1%的验证分数,推理表现达到Gemini 3 Pro的2倍之多 [9][10] - 多模态与可视化能力进化:官方展示显示,模型在多模态生成和语义理解上提升了一个level,能生成动作更连贯、色彩输出更佳的内容,并能将日常数据转为互动可视化内容 [1][14][20] - 长上下文与综合能力提升:模型支持1M上下文,知识截止日期为2025年1月,在多模态理解、代码生成、多语言性能和长上下文方面均同步增强 [11] 基准测试与竞品对比表现 - 多项基准领先:在Humanity's Last Exam测试中得分为51.4%(使用工具),在GPQA Diamond科学知识测试中达94.3%,在SWE-Bench Verified代理编码测试中达80.6% [11] - 竞品对比优势:在ARC-AGI-2测试中,分数(77.1%)显著高于Claude Sonnet 4.6(58.3%)、Opus 4.6(68.8%)及GPT-5.2(52.9%) [11] - 整体排名提升:在Arena对比评测中,Gemini 3.1 Pro的整体排名分数比3 Pro高出13分,文本与代码维度表现进步明显 [12] 实际应用与用户反馈 - 复杂任务处理:能应对结构更复杂、步骤更多的提示词需求,例如一次性生成3D版“椋鸟群飞”视觉代码并实现可交互玩法,用户可通过手势追踪操控鸟群,画面还能根据运动生成音乐 [16][17][18] - 用户创意实现:网友使用模型成功生成《我的世界》场景、创建个人网站以及开发具有逼真光线模拟效果的教育应用,反馈积极 [22][24][25] - 模型可用性:Gemini 3.1 Pro已在Gemini应用和API中上线,Google AI Pro和Ultra用户还可在NotebookLM中使用该模型 [29] 成本与行业影响 - 定价策略:Gemini 3.1 Pro Preview的输入输出价格与Gemini 3 Pro Preview持平,输入价格为每百万tokens 2美元(<200k)或4美元(>200k),输出价格为4美元(<200k)或18美元(>200k) [36] - 成本效益显著:从ARC-AGI基准视角看,每完成一次ARC-AGI-2任务花费约0.96美元(约6.63元人民币),而性能相近的Gemini 3 Deep Think价格是其10倍 [37] - 推动行业进步:此次更新以小幅版本号实现了性能的大幅提升和成本的优化,被认为打破了传统的成本-智能曲线,将大模型向帕累托前沿推进,对于高速进化中的大模型应用而言,成本持续压缩值得关注 [35][39][41]
谷歌突发Gemini 3.1 Pro!首次采用「.1」版本号,推理性能×2的那种