倒反天罡，Gemini Flash表现超越Pro，“帕累托前沿已经反转了”

Gemini 3 Flash性能表现 - 在SWE-Bench Verified测试中获得78%的分数，超越自家旗舰Gemini 3 Pro的76.2% [1][5] - 在AIME 2025数学测试中，结合代码执行能力得分高达99.7%，逼近满分 [5] - 在Humanity's Last Exam测试中，不使用工具得分为33.7%，与Pro版37.5%的成绩处于同一梯队 [5] - 在多项核心基准测试中表现超越上一代旗舰Gemini 2.5 Pro，并在编程和多模态推理等维度反超GPT-5.2 [5] - 响应速度是Gemini 2.5 Pro的3倍，Token消耗量减少30% [7] 产品定价与成本效益 - Gemini 3 Flash输入价格为每100万Token 0.50美元，输出价格为每100万Token 3.00美元 [2][6] - 价格高于Gemini 2.5 Flash（输入0.30美元/百万Token，输出2.50美元/百万Token），但考虑到性能和速度提升，仍具吸引力 [7] - 其成本显著低于Gemini 3 Pro（输入2.00美元/百万Token，输出12.00美元/百万Token） [2][6] - 在竞品中，其输入成本低于Claude Sonnet 4.5 Thinking（3.00美元/百万Token）和GPT-5.2 Extra high（1.75美元/百万Token），但高于Grok 4.1 Fast Reasoning（0.20美元/百万Token） [6] 技术战略与模型发展路径 - 公司团队揭示战略逻辑：Pro模型的主要作用是“蒸馏”出Flash模型，探索智能上限，而Flash则通过蒸馏技术继承Pro能力并优化延迟、成本和吞吐量 [8][9][11] - 未来Pro模型可能主要作为“生成器”，专门生产高质量的Flash模型 [11] - 团队认为Scaling Law并未失效，通过持续扩大规模仍能实现性能飞跃，前方“看不到墙” [11] - 未来扩展重点将从预训练阶段的算力堆叠，转移到推理侧的扩展（Test-time Compute） [12] - 后训练（Post-training）被认为是目前最大的“未开垦绿地”，在开放式任务上提升空间巨大 [12] 行业影响与技术启示 - Flash的表现打破了“模型越大越好”和“参数至上”的迷信，证明了更便宜、更快的模型可以更聪明 [3][13] - 这一结果标志着“帕累托前沿”发生反转，挑战了行业对“旗舰版”的盲目崇拜 [3][14] - 技术关键在于强化学习，Flash集成了最新的Agentic RL研究成果，而非Pro的简单蒸馏版 [13] - 证明提升模型能力不单纯依赖堆砌参数，通过先进的后训练算法（如RL），小模型可实现“降维打击” [14]