Gemini 3.5 Flash性价比惊艳|xbench 快报
红杉汇·2026-05-22 08:03

谷歌2026年I/O开发者大会发布新模型 - 谷歌在I/O 2026开发者大会上发布了两款新模型:面向智能体与编程的Gemini 3.5 Flash,以及原生多模态生成模型Gemini Omni [1] Gemini 3.5 Flash模型性能与成本 - Gemini 3.5 Flash在Agent与Coding基准测试(如Terminal-Bench2.1、MCP Atlas、Finance Agent v2)上的得分全面超越上一代Gemini 3.1 Pro [1] - 其官方API价格仅为Gemini 3.1 Pro的约60%,输出速度被描述为比其他前沿模型快4倍 [1] - 在xbench榜单中,Gemini 3.5 Flash在性价比、推理token消耗和响应速度方面显著优于GPT-5.5 Pro和Opus4.7,完成同样任务的API花费仅为GPT-5.5 Pro的1/100 [1] Gemini 3.5 Flash在ScienceQA基准测试表现 - 在xbench-ScienceQA榜单中,Gemini 3.5 Flash平均分为70.0,排名第四,仅次于GPT-5.5 Pro(73.0分)、Claude Opus 4.7(73.0分)和Gemini 3 Pro(71.6分)[3] - 其平均响应时间为15.40秒,比Gemini 3 Pro的48.62秒快约3倍 [3][6] - 完成500道题目的总花费为1.9美元,比Gemini 3 Pro的3.0美元便宜37% [3][6] - 其输入token成本为每百万token 1.50美元,输出token成本为每百万token 9.00美元 [3] - 在性能接近的情况下,其500题花费(1.9美元)远低于GPT-5.5 Pro的471.1美元,不足后者的1/100 [3][4] Gemini 3.5 Flash在BabyVision基准测试表现 - 在xbench-BabyVision视觉问答榜单中,Gemini 3.5 Flash以61.86%的平均分位列第二,仅次于字节跳动的Doubao-Seed-2.0-pro(62.60%),优于GPT-5.5(54.64%)和Gemini 3.1 Pro(51.50%)[8] - 其得分大幅领先于Gemini 3 Pro的49.70% [8][13] Gemini 3.5 Flash在OneMillion-Bench基准测试表现 - 在OneMillion-Bench复杂任务基准测试中,Gemini 3.5 Flash作为基础模型,通过率为17.0%,平均分为43.1%,在榜单中排名靠前 [11] Gemini 3.5 Flash的产品定位与特性 - 该模型是针对智能体时代设计的高并发、低延迟前沿模型,核心定位是在保持极致速度与高性价比的同时,提供旗舰级的智能体与编程执行力 [13] - 专为快速迭代的智能体循环设计,在长周期、复杂代码库的多轮调试与子智能体部署中,能提供不输旗舰模型的交付质量 [13] - 将此前Pro版本才具备的长周期规划、工具调用、并行智能体执行等能力下放到Flash层级 [13] - 默认开启动态推理预算分配,可根据任务复杂度自动调节思考长度 [14] - 本次发布未集成计算机使用能力,仍需调用单独的Gemini 2.5 Computer Use模型 [15] Gemini Omni模型特性与影响 - Gemini Omni是定位为“任意到任意”的原生多模态生成模型,用户可同时输入图像、音频、视频与文本,模型在统一表征空间内进行跨模态推理后生成视频或图像输出 [16] - 其采用统一表征而非桥接方案,从预训练阶段就让多模态共同演化 [16] - 官方演示强调其在物理、文化、历史、科学等维度的世界知识 [16] - 首发版本Omni Flash面向消费级用户,可生成10秒视频,API将延后发布 [16] - 该模型的发布意味着谷歌将以一个统一的“任意到任意”接口,将视频生成能力整合进Gemini产品线,并首发接入YouTube Shorts等亿级日活渠道 [17]

Gemini 3.5 Flash性价比惊艳|xbench 快报 - Reportify