文章核心观点 - 文章围绕谷歌在Google I/O 2026大会上发布的Gemini 3.5 Flash模型展开,探讨了其官方宣称的卓越性能、速度与成本优势与早期用户实际体验反馈之间的巨大落差 [7][8][37] - 核心矛盾在于:该模型在基准测试中表现完美,号称能为企业节省巨额成本,但社区反馈却质疑其智能程度不足、实际任务成本可能更高,导致其市场定位(是“Agent时代性价比之王”还是“鸡肋模型”)存在争议 [8][20][21] - 资本市场的冷静反应表明,投资者已不满足于技术发布,更关注商业化兑现,而此次发布会未提供重新定义格局的旗舰信号,导致股价承压 [38][39] Gemini 3.5 Flash的官方发布与定位 - 发布地位显赫:在Google I/O 2026上,Gemini 3.5 Flash获得了主舞台、默认模型、多条核心产品接入的重要位置 [5] - 模型定位明确:是一款为Agent时代准备的Flash模型,主打速度更快、成本低于Pro,专注于代码、工具调用和长任务执行 [6] - 基准测试成绩领先:官方数据显示,该模型在MCP Atlas测试中得分83.6%,在Toolathlon、Finance Agent v2、CharXiv Reasoning等多项测试中排名第一,对手包括Anthropic Claude Opus 4.7和OpenAI GPT-5.5 [9][10][11] - 性能反超前代旗舰:作为Flash级别模型,其在多项agent、coding和多模态基准测试上超过了自家上一代旗舰Gemini 3.1 Pro [12][13][14] - 具备显著速度优势:输出token速度是其他前沿模型的四倍 [15] 官方宣称的成本与经济效益 - 定价策略:Gemini 3.5 Flash定价为输入每百万token 1.50美元、输出每百万token 9.00美元,按标准API单价计算,分别比Gemini 3.1 Pro低约25% [17] - 成本优势可放大:叠加90%的缓存折扣后,对于大规模调用Agent的企业用户,成本优势进一步放大 [18] - 预估节省巨大:谷歌估算,若企业将80%的工作负载切换至该模型,在每日万亿token的规模下,每年可节省超过十亿美元 [19] 早期用户的实际体验与反馈 - 速度获得一致认可:用户反馈普遍认为其速度“快得离谱”、“insanely fast”,甚至比GPT-5.5“快了一个数量级”,这对多轮闭环的Agent工作流意义重大 [8][23][24][26][27][28] - 定价引发广泛质疑: - 用户指出其价格相比前代Gemini 2.5 Flash(输入$0.30、输出$2.50)和3.0 Flash(输入$0.50、输出$3.00)大幅上涨,3.5 Flash(输入$1.50、输出$9.00)同级别价格涨了三倍 [30][31] - 用户质疑价格上涨后是否还能算作Flash系列,并认为这是谷歌在用户形成依赖后收紧价格的策略 [31] - 计费逻辑从按次转向与任务复杂度(token消耗)挂钩,用户越用于复杂任务,额度消耗越快 [32][34] - 模型质量存在争议: - 有反馈指出,在完成相同任务时,3.5 Flash消耗的token比3.1 Pro更多,导致单任务成本反而更高 [8][34] - 在复杂人文概念讨论等“软技能”场景中,其深度和细腻度被评价为明显逊色于3.1 Pro,显得“过于机械和生硬” [34] - 社区对其coding能力的进步提及甚少 [34] 资本市场反应与行业背景 - 市场预期高涨:发布会前,谷歌股价过去一年涨幅巨大,华尔街多数分析师维持看多,市场期待强增量信号 [39] - 发布会后股价回落:发布会当天,谷歌股价冲高回落,最终收盘较日内高点下跌约3.5% [39] - 反应冷淡的原因:市场等待的是能重新定义竞争格局的旗舰级信号,但此次发布的是一款Flash模型,真正的旗舰版Gemini 3.5 Pro需下月发布,内容缺乏实质亮点 [39] - 行业投资逻辑转变:AI军备竞赛背景下,投资者已不再为技术发布本身鼓掌,而是等待商业化兑现的证据 [39]
Google最新模型翻车?用户质疑“快是快,但不够聪明”