Gemini 3 Flash性能表现 - 在SWE-Bench Verified测试中获得78%的分数,超越自家旗舰Gemini 3 Pro的76.2% [1][5] - 在AIME 2025数学测试中,结合代码执行能力得分高达99.7%,逼近满分 [5] - 在Humanity's Last Exam测试中,不使用工具得分为33.7%,与Pro版37.5%的成绩处于同一梯队 [5] - 在多项核心基准测试中表现超越上一代旗舰Gemini 2.5 Pro,并在编程和多模态推理等维度反超GPT-5.2 [5] - 响应速度是Gemini 2.5 Pro的3倍,Token消耗量减少30% [7] 产品定价与成本效益 - Gemini 3 Flash输入价格为每100万Token 0.50美元,输出价格为每100万Token 3.00美元 [2][6] - 价格高于Gemini 2.5 Flash(输入0.30美元/百万Token,输出2.50美元/百万Token),但考虑到性能和速度提升,仍具吸引力 [7] - 其成本显著低于Gemini 3 Pro(输入2.00美元/百万Token,输出12.00美元/百万Token) [2][6] - 在竞品中,其输入成本低于Claude Sonnet 4.5 Thinking(3.00美元/百万Token)和GPT-5.2 Extra high(1.75美元/百万Token),但高于Grok 4.1 Fast Reasoning(0.20美元/百万Token) [6] 技术战略与模型发展路径 - 公司团队揭示战略逻辑:Pro模型的主要作用是“蒸馏”出Flash模型,探索智能上限,而Flash则通过蒸馏技术继承Pro能力并优化延迟、成本和吞吐量 [8][9][11] - 未来Pro模型可能主要作为“生成器”,专门生产高质量的Flash模型 [11] - 团队认为Scaling Law并未失效,通过持续扩大规模仍能实现性能飞跃,前方“看不到墙” [11] - 未来扩展重点将从预训练阶段的算力堆叠,转移到推理侧的扩展(Test-time Compute) [12] - 后训练(Post-training)被认为是目前最大的“未开垦绿地”,在开放式任务上提升空间巨大 [12] 行业影响与技术启示 - Flash的表现打破了“模型越大越好”和“参数至上”的迷信,证明了更便宜、更快的模型可以更聪明 [3][13] - 这一结果标志着“帕累托前沿”发生反转,挑战了行业对“旗舰版”的盲目崇拜 [3][14] - 技术关键在于强化学习,Flash集成了最新的Agentic RL研究成果,而非Pro的简单蒸馏版 [13] - 证明提升模型能力不单纯依赖堆砌参数,通过先进的后训练算法(如RL),小模型可实现“降维打击” [14]
倒反天罡,Gemini Flash表现超越Pro,“帕累托前沿已经反转了”