Gemini 3.5 Flash性价比惊艳｜xbench 快报

谷歌2026年I/O开发者大会发布新模型 - 谷歌在I/O 2026开发者大会上发布了两款新模型：面向智能体与编程的Gemini 3.5 Flash，以及原生多模态生成模型Gemini Omni [1] Gemini 3.5 Flash模型性能与成本 - Gemini 3.5 Flash在Agent与Coding基准测试（如Terminal-Bench2.1、MCP Atlas、Finance Agent v2）上的得分全面超越上一代Gemini 3.1 Pro [1] - 其官方API价格仅为Gemini 3.1 Pro的约60%，输出速度被描述为比其他前沿模型快4倍 [1] - 在xbench榜单中，Gemini 3.5 Flash在性价比、推理token消耗和响应速度方面显著优于GPT-5.5 Pro和Opus4.7，完成同样任务的API花费仅为GPT-5.5 Pro的1/100 [1] Gemini 3.5 Flash在ScienceQA基准测试表现 - 在xbench-ScienceQA榜单中，Gemini 3.5 Flash平均分为70.0，排名第四，仅次于GPT-5.5 Pro（73.0分）、Claude Opus 4.7（73.0分）和Gemini 3 Pro（71.6分）[3] - 其平均响应时间为15.40秒，比Gemini 3 Pro的48.62秒快约3倍 [3][6] - 完成500道题目的总花费为1.9美元，比Gemini 3 Pro的3.0美元便宜37% [3][6] - 其输入token成本为每百万token 1.50美元，输出token成本为每百万token 9.00美元 [3] - 在性能接近的情况下，其500题花费（1.9美元）远低于GPT-5.5 Pro的471.1美元，不足后者的1/100 [3][4] Gemini 3.5 Flash在BabyVision基准测试表现 - 在xbench-BabyVision视觉问答榜单中，Gemini 3.5 Flash以61.86%的平均分位列第二，仅次于字节跳动的Doubao-Seed-2.0-pro（62.60%），优于GPT-5.5（54.64%）和Gemini 3.1 Pro（51.50%）[8] - 其得分大幅领先于Gemini 3 Pro的49.70% [8][13] Gemini 3.5 Flash在OneMillion-Bench基准测试表现 - 在OneMillion-Bench复杂任务基准测试中，Gemini 3.5 Flash作为基础模型，通过率为17.0%，平均分为43.1%，在榜单中排名靠前 [11] Gemini 3.5 Flash的产品定位与特性 - 该模型是针对智能体时代设计的高并发、低延迟前沿模型，核心定位是在保持极致速度与高性价比的同时，提供旗舰级的智能体与编程执行力 [13] - 专为快速迭代的智能体循环设计，在长周期、复杂代码库的多轮调试与子智能体部署中，能提供不输旗舰模型的交付质量 [13] - 将此前Pro版本才具备的长周期规划、工具调用、并行智能体执行等能力下放到Flash层级 [13] - 默认开启动态推理预算分配，可根据任务复杂度自动调节思考长度 [14] - 本次发布未集成计算机使用能力，仍需调用单独的Gemini 2.5 Computer Use模型 [15] Gemini Omni模型特性与影响 - Gemini Omni是定位为“任意到任意”的原生多模态生成模型，用户可同时输入图像、音频、视频与文本，模型在统一表征空间内进行跨模态推理后生成视频或图像输出 [16] - 其采用统一表征而非桥接方案，从预训练阶段就让多模态共同演化 [16] - 官方演示强调其在物理、文化、历史、科学等维度的世界知识 [16] - 首发版本Omni Flash面向消费级用户，可生成10秒视频，API将延后发布 [16] - 该模型的发布意味着谷歌将以一个统一的“任意到任意”接口，将视频生成能力整合进Gemini产品线，并首发接入YouTube Shorts等亿级日活渠道 [17]