文章核心观点 - 谷歌发布新一代大模型Gemini 3 Flash,该模型在速度、成本与性能上实现显著突破,部分性能超越自家旗舰模型及主要竞争对手,旨在为开发者提供无需在速度与智能间妥协的高性价比选择 [3][6][11] 产品发布与定位 - 谷歌于12月18日官宣发布Gemini 3 Flash,这是Gemini 3系列中速度最快、性价比最高的模型 [3] - 该模型定位为“为速度而生的前沿智能”,旨在证明速度与规模无需以牺牲智能为代价 [3][6] - 这是谷歌一个月内在大模型领域的第四次动作更新 [4] - 该模型将面向所有用户推出,免费用户也可使用,并在Gemini App中替代2.5 Flash成为新的默认模型 [10] 性能表现与基准测试 - 在编程能力基准测试SWE-bench Verified中,Gemini 3 Flash得分高达78%,超越了自家旗舰模型Gemini 3 Pro(76.2%)和Anthropic的Claude Sonnet 4.5(77.2%)[6][7] - 在多模态理解基准MMMU-Pro上,Gemini 3 Flash得分81.2%,超过OpenAI的GPT-5.2(79.5%)并大幅领先Claude Sonnet 4.5(68.0%)[6][7] - 在数学基准AIME 2025(无工具)测试中,Gemini 3 Flash得分95.2%,略高于Gemini 3 Pro的95.0% [7] - 在长上下文性能测试MRCR v2(8-needle)的128k平均测试中,得分为67.2% [7] - 在智能体工作流程相关测试中表现突出,例如在Toolathlon测试中得分49.4%,高于Gemini 3 Pro的36.4% [7] - 根据大模型竞技场Imarena.ai数据,Gemini 3 Flash在文本、图像和编程领域排名前5,在数学和创意写作类别排名第2 [8] 速度与成本优势 - 官方称Gemini 3 Flash的速度比上一代旗舰模型2.5 Pro提升了3倍 [6] - 定价极具竞争力:输入价格为0.5美元/百万Tokens,输出价格为3美元/百万Tokens [7][8] - 作为对比,Claude Sonnet 4.5的输出价格为15美元/百万Tokens,GPT-5.2的输出价格为14美元/百万Tokens,均是Gemini 3 Flash的近5倍 [9] - 开发者测试显示,在完成相同Python任务时,Gemini 3 Flash仅需9秒,而GPT-5 Mini和DeepSeek-V3.2分别用了35秒和41秒 [10] - 谷歌表示,根据典型流量测试,Gemini 3 Flash平均使用的令牌数量比上一代2.5 Pro少30% [9] - 开发者估计,若从GPT-4o或Gemini 3 Pro切换到Gemini 3 Flash,成本预计能直接降低50%-70% [10] 市场影响与公司战略 - 谷歌表示,自发布Gemini 3 Pro和Deep Think以来,其内部API每天处理超过1万亿个tokens [11] - 凭借性价比和性能,Gemini 3 Flash预计将受到更广泛欢迎,谷歌称Flash系列一直是内部最受欢迎的版本,此前的Flash 2和2.5处理着数百万开发者构建的数十万个应用程序中数万亿个tokens [11] - 此次发布被视作谷歌又一张王牌,可能进一步巩固其市场领先地位 [11]
狙击Open AI!谷歌一个月内连发“数弹”