帕累托前沿
搜索文档
谷歌突发Gemini 3.1 Pro!首次采用「.1」版本号,推理性能×2的那种
量子位· 2026-02-20 09:28
文章核心观点 - 谷歌发布Gemini 3.1 Pro模型,相较于去年11月发布的3 Pro,虽为小版本号更新,但在核心推理能力、多模态生成、语义理解及长上下文处理等方面实现了显著提升,性能表现强劲,获得用户积极反馈 [1][9][27] - Gemini 3.1 Pro的发布,在提升性能的同时保持了与上一代模型持平的价格,显著优化了成本效益,推动了行业在“帕累托前沿”上的进步,即追求最小化成本与最大化性能 [35][36][39] Gemini 3.1 Pro的核心性能升级 - **推理能力大幅增强**:在ARC-AGI-2基准测试中,Gemini 3.1 Pro获得77.1%的验证分数,推理表现达到Gemini 3 Pro的2倍之多 [9][10] - **多模态与可视化能力进化**:官方展示显示,模型在多模态生成和语义理解上提升了一个level,能生成动作更连贯、色彩输出更佳的内容,并能将日常数据转为互动可视化内容 [1][14][20] - **长上下文与综合能力提升**:模型支持1M上下文,知识截止日期为2025年1月,在多模态理解、代码生成、多语言性能和长上下文方面均同步增强 [11] 基准测试与竞品对比表现 - **多项基准领先**:在Humanity's Last Exam测试中得分为51.4%(使用工具),在GPQA Diamond科学知识测试中达94.3%,在SWE-Bench Verified代理编码测试中达80.6% [11] - **竞品对比优势**:在ARC-AGI-2测试中,分数(77.1%)显著高于Claude Sonnet 4.6(58.3%)、Opus 4.6(68.8%)及GPT-5.2(52.9%) [11] - **整体排名提升**:在Arena对比评测中,Gemini 3.1 Pro的整体排名分数比3 Pro高出13分,文本与代码维度表现进步明显 [12] 实际应用与用户反馈 - **复杂任务处理**:能应对结构更复杂、步骤更多的提示词需求,例如一次性生成3D版“椋鸟群飞”视觉代码并实现可交互玩法,用户可通过手势追踪操控鸟群,画面还能根据运动生成音乐 [16][17][18] - **用户创意实现**:网友使用模型成功生成《我的世界》场景、创建个人网站以及开发具有逼真光线模拟效果的教育应用,反馈积极 [22][24][25] - **模型可用性**:Gemini 3.1 Pro已在Gemini应用和API中上线,Google AI Pro和Ultra用户还可在NotebookLM中使用该模型 [29] 成本与行业影响 - **定价策略**:Gemini 3.1 Pro Preview的输入输出价格与Gemini 3 Pro Preview持平,输入价格为每百万tokens 2美元(<200k)或4美元(>200k),输出价格为4美元(<200k)或18美元(>200k) [36] - **成本效益显著**:从ARC-AGI基准视角看,每完成一次ARC-AGI-2任务花费约0.96美元(约6.63元人民币),而性能相近的Gemini 3 Deep Think价格是其10倍 [37] - **推动行业进步**:此次更新以小幅版本号实现了性能的大幅提升和成本的优化,被认为打破了传统的成本-智能曲线,将大模型向帕累托前沿推进,对于高速进化中的大模型应用而言,成本持续压缩值得关注 [35][39][41]
倒反天罡!Gemini Flash表现超越Pro,“帕累托前沿已经反转了”
量子位· 2025-12-22 16:01
文章核心观点 - Gemini 3 Flash 模型在多项关键性能基准测试中超越了其旗舰版本 Gemini 3 Pro 及上一代产品,同时具备显著的成本和速度优势,这挑战了“模型越大越好”的传统观念,并揭示了谷歌在模型开发战略上的重大转变,即通过旗舰模型“蒸馏”出更高效、更强大的轻量版模型 [1][4][6][19] 模型性能表现 - **编程能力反超**:在衡量软件工程能力的权威测试 SWE-Bench Verified 中,Gemini 3 Flash 获得 **78.0%** 的分数,超越了 Gemini 3 Pro 的 **76.2%** 以及上一代 Gemini 2.5 Pro 的 **59.6%** [1][2][6] - **数学能力顶尖**:在 AIME 2025 数学基准测试中,结合代码执行能力的 Gemini 3 Flash 得分高达 **99.7%**,已无限逼近满分,不使用工具时也达到 **95.2%**,略高于 Pro 版的 **95.0%** [2][7] - **多模态与推理能力强劲**:在 Humanity‘s Last Exam 学术推理测试中,Flash 在不使用工具的情况下获得 **33.7%** 的分数,与 Pro 版的 **37.5%** 处于同一梯队;在 MMMU-Pro 多模态理解测试中,Flash 以 **81.2%** 的成绩与 Pro 版的 **81.0%** 基本持平 [2][7] - **全面领先上一代**:Gemini 3 Flash 在几乎所有基准测试中的表现都全面超越了上一代的 Gemini 2.5 Pro 和 2.5 Flash [2][6] 成本与速度优势 - **定价极具竞争力**:Gemini 3 Flash 的输入成本为 **0.50美元/百万Token**,输出成本为 **3.00美元/百万Token**,显著低于 Gemini 3 Pro 的 **4.00美元/百万输入** 和 **12.00美元/百万输出** [2][8][9] - **速度与效率提升**:Gemini 3 Flash 的推理速度是 Gemini 2.5 Pro 的 **3倍**,同时 Token 消耗量减少了 **30%** [9] - **性价比突出**:相较于性能提升,其价格虽略高于 Gemini 2.5 Flash,但仍被认为极具吸引力 [9] 战略定位与技术路径 - **Pro 模型的新角色**:谷歌团队明确表示,旗舰 Pro 模型的主要作用之一是作为“蒸馏”轻量版 Flash 模型的来源,旨在不计成本地探索智能上限,而 Flash 则负责继承能力并极致优化延迟、成本和吞吐量 [10][12][13] - **技术实现路径**:Flash 的性能超越并非简单蒸馏的结果,而是集成了大量最新的代理强化学习研究成果,证明了通过先进的后训练算法,小模型可以实现对更大参数模型的“降维打击” [20][21][22] - **Scaling Law 的演变**:团队认为单纯依靠预训练阶段堆砌参数的路径正在逼近极限,未来的扩展重点将从预训练算力堆叠转移到推理侧的计算扩展和后训练优化 [15][16][17] 行业影响与竞争格局 - **挑战传统观念**:Flash 的表现直接打破了“参数至上”和“旗舰版迷信”,证明了更便宜、更快的模型可以同时是更聪明的模型,引发了关于“帕累托前沿”反转的讨论 [4][19][23] - **横向对比保持竞争力**:在与主要竞品的对比中,Gemini 3 Flash 在多项测试中表现优异,例如在 SWE-Bench Verified 测试中得分 **78.0%**,高于 Claude Sonnet 的 **77.2%**,接近 GPT-5.2 Extra high 的 **80.0%** [8] - **未来演进方向**:行业认为后训练是目前最大的“未开垦绿地”,在代码、推理等封闭任务被“击穿”后,提升模型在开放式任务上的能力将成为关键 [17][18]