参数至上论
搜索文档
倒反天罡,Gemini Flash表现超越Pro,“帕累托前沿已经反转了”
36氪· 2025-12-22 18:12
Gemini 3 Flash性能表现 - 在SWE-Bench Verified测试中获得78%的分数,超越自家旗舰Gemini 3 Pro的76.2% [1][5] - 在AIME 2025数学测试中,结合代码执行能力得分高达99.7%,逼近满分 [5] - 在Humanity's Last Exam测试中,不使用工具得分为33.7%,与Pro版37.5%的成绩处于同一梯队 [5] - 在多项核心基准测试中表现超越上一代旗舰Gemini 2.5 Pro,并在编程和多模态推理等维度反超GPT-5.2 [5] - 响应速度是Gemini 2.5 Pro的3倍,Token消耗量减少30% [7] 产品定价与成本效益 - Gemini 3 Flash输入价格为每100万Token 0.50美元,输出价格为每100万Token 3.00美元 [2][6] - 价格高于Gemini 2.5 Flash(输入0.30美元/百万Token,输出2.50美元/百万Token),但考虑到性能和速度提升,仍具吸引力 [7] - 其成本显著低于Gemini 3 Pro(输入2.00美元/百万Token,输出12.00美元/百万Token) [2][6] - 在竞品中,其输入成本低于Claude Sonnet 4.5 Thinking(3.00美元/百万Token)和GPT-5.2 Extra high(1.75美元/百万Token),但高于Grok 4.1 Fast Reasoning(0.20美元/百万Token) [6] 技术战略与模型发展路径 - 公司团队揭示战略逻辑:Pro模型的主要作用是“蒸馏”出Flash模型,探索智能上限,而Flash则通过蒸馏技术继承Pro能力并优化延迟、成本和吞吐量 [8][9][11] - 未来Pro模型可能主要作为“生成器”,专门生产高质量的Flash模型 [11] - 团队认为Scaling Law并未失效,通过持续扩大规模仍能实现性能飞跃,前方“看不到墙” [11] - 未来扩展重点将从预训练阶段的算力堆叠,转移到推理侧的扩展(Test-time Compute) [12] - 后训练(Post-training)被认为是目前最大的“未开垦绿地”,在开放式任务上提升空间巨大 [12] 行业影响与技术启示 - Flash的表现打破了“模型越大越好”和“参数至上”的迷信,证明了更便宜、更快的模型可以更聪明 [3][13] - 这一结果标志着“帕累托前沿”发生反转,挑战了行业对“旗舰版”的盲目崇拜 [3][14] - 技术关键在于强化学习,Flash集成了最新的Agentic RL研究成果,而非Pro的简单蒸馏版 [13] - 证明提升模型能力不单纯依赖堆砌参数,通过先进的后训练算法(如RL),小模型可实现“降维打击” [14]
倒反天罡!Gemini Flash表现超越Pro,“帕累托前沿已经反转了”
量子位· 2025-12-22 16:01
文章核心观点 - Gemini 3 Flash 模型在多项关键性能基准测试中超越了其旗舰版本 Gemini 3 Pro 及上一代产品,同时具备显著的成本和速度优势,这挑战了“模型越大越好”的传统观念,并揭示了谷歌在模型开发战略上的重大转变,即通过旗舰模型“蒸馏”出更高效、更强大的轻量版模型 [1][4][6][19] 模型性能表现 - **编程能力反超**:在衡量软件工程能力的权威测试 SWE-Bench Verified 中,Gemini 3 Flash 获得 **78.0%** 的分数,超越了 Gemini 3 Pro 的 **76.2%** 以及上一代 Gemini 2.5 Pro 的 **59.6%** [1][2][6] - **数学能力顶尖**:在 AIME 2025 数学基准测试中,结合代码执行能力的 Gemini 3 Flash 得分高达 **99.7%**,已无限逼近满分,不使用工具时也达到 **95.2%**,略高于 Pro 版的 **95.0%** [2][7] - **多模态与推理能力强劲**:在 Humanity‘s Last Exam 学术推理测试中,Flash 在不使用工具的情况下获得 **33.7%** 的分数,与 Pro 版的 **37.5%** 处于同一梯队;在 MMMU-Pro 多模态理解测试中,Flash 以 **81.2%** 的成绩与 Pro 版的 **81.0%** 基本持平 [2][7] - **全面领先上一代**:Gemini 3 Flash 在几乎所有基准测试中的表现都全面超越了上一代的 Gemini 2.5 Pro 和 2.5 Flash [2][6] 成本与速度优势 - **定价极具竞争力**:Gemini 3 Flash 的输入成本为 **0.50美元/百万Token**,输出成本为 **3.00美元/百万Token**,显著低于 Gemini 3 Pro 的 **4.00美元/百万输入** 和 **12.00美元/百万输出** [2][8][9] - **速度与效率提升**:Gemini 3 Flash 的推理速度是 Gemini 2.5 Pro 的 **3倍**,同时 Token 消耗量减少了 **30%** [9] - **性价比突出**:相较于性能提升,其价格虽略高于 Gemini 2.5 Flash,但仍被认为极具吸引力 [9] 战略定位与技术路径 - **Pro 模型的新角色**:谷歌团队明确表示,旗舰 Pro 模型的主要作用之一是作为“蒸馏”轻量版 Flash 模型的来源,旨在不计成本地探索智能上限,而 Flash 则负责继承能力并极致优化延迟、成本和吞吐量 [10][12][13] - **技术实现路径**:Flash 的性能超越并非简单蒸馏的结果,而是集成了大量最新的代理强化学习研究成果,证明了通过先进的后训练算法,小模型可以实现对更大参数模型的“降维打击” [20][21][22] - **Scaling Law 的演变**:团队认为单纯依靠预训练阶段堆砌参数的路径正在逼近极限,未来的扩展重点将从预训练算力堆叠转移到推理侧的计算扩展和后训练优化 [15][16][17] 行业影响与竞争格局 - **挑战传统观念**:Flash 的表现直接打破了“参数至上”和“旗舰版迷信”,证明了更便宜、更快的模型可以同时是更聪明的模型,引发了关于“帕累托前沿”反转的讨论 [4][19][23] - **横向对比保持竞争力**:在与主要竞品的对比中,Gemini 3 Flash 在多项测试中表现优异,例如在 SWE-Bench Verified 测试中得分 **78.0%**,高于 Claude Sonnet 的 **77.2%**,接近 GPT-5.2 Extra high 的 **80.0%** [8] - **未来演进方向**:行业认为后训练是目前最大的“未开垦绿地”,在代码、推理等封闭任务被“击穿”后,提升模型在开放式任务上的能力将成为关键 [17][18]