狙击Open AI！谷歌一个月内连发“数弹”

产品发布与核心定位 - 谷歌于12月18日发布Gemini 3 Flash，是其Gemini 3系列中速度最快、性价比最高的模型，标志着公司一个月内在大模型领域的第四次更新 [1] - 该模型突破了轻量化模型性能打折的传统印象，在保持高速和低成本的同时，部分性能甚至优于旗舰模型 [1][4] - 谷歌CEO表示，该模型在性能和效率上突破了帕累托极限，性能超越上一代旗舰模型Gemini 2.5 Pro，同时速度提升了3倍，价格更低 [3] 性能表现与基准测试 - 在编程能力基准测试SWE-bench Verified中，Gemini 3 Flash得分高达78%，超越了自家旗舰Gemini 3 Pro（76.2%）和竞争对手Claude Sonnet 4.5（77.2%）[3] - 在多模态理解基准MMMU-Pro上，Gemini 3 Flash得分81.2%，超过GPT-5.2（79.5%）和Claude Sonnet 4.5（68.0%）[3] - 在数学基准AIME 2025（无工具）测试中得分为95.2%，略高于Gemini 3 Pro的95.0% [4] - 在科学知识基准GPQA Diamond（无工具）测试中得分为90.4%，略低于Gemini 3 Pro的91.9% [4] - 在长上下文性能基准MRCR v2（128k平均）测试中得分为67.2%，低于Gemini 3 Pro的77.0% [4] 定价策略与成本优势 - Gemini 3 Flash的输入定价为0.5美元/百万Tokens，输出定价为3美元/百万Tokens [4][5] - 其输出价格显著低于主要竞争对手：Claude Sonnet 4.5为15美元/百万Tokens，GPT-5.2为14美元/百万Tokens，分别是其定价的近5倍 [6] - 与自家前代产品相比，其输入价格（0.5美元）高于Gemini 2.5 Flash（0.3美元），但远低于Gemini 2.5 Pro（1.25美元）和Gemini 3 Pro（2.00美元）[4] - 开发者测试显示，若用户从GPT-4o或Gemini 3 Pro切换至Gemini 3 Flash，预计成本可降低50%-70% [8] 效率与速度 - 根据典型流量测试，Gemini 3 Flash平均使用的令牌数量比上一代Gemini 2.5 Pro少30% [6] - 在开发者进行的Python对比测试中，Gemini 3 Flash完成任务仅需9秒，而竞争对手GPT-5 Mini和DeepSeek-V3.2分别需要35秒和41秒 [7] - 模型能够灵活调整思考时间以应对复杂场景，同时保留了低延迟特性 [6] 市场定位与采用情况 - 根据大模型竞技场Imarena.ai数据，Gemini 3 Flash在文本、图像和编程领域排名前5，在数学和创意写作类别排名第2，被认为是性价比最高的前沿模型 [5] - 该模型将面向所有用户推出，免费用户也可使用，并在Gemini App中替代Gemini 2.5 Flash成为新的默认模型 [8] - 谷歌表示，Flash系列一直是内部最受欢迎的版本，此前的Flash 2和Flash 2.5处理着数百万开发者构建的数十万个应用程序中的数万亿个tokens [9] - 自Gemini 3系列发布以来，其内部API每天处理超过1万亿个tokens [8] - 公司认为此模型是迄今为止在智能体工作流程方面最出色的模型，旨在让开发者无需在速度与智能之间妥协 [6][9]