Gemini 2.5 Flash
搜索文档
国产大模型周调用量再超美国
第一财经· 2026-03-16 18:19
全球AI大模型调用量格局变化 - 国产AI大模型在OpenRouter平台的周调用量已连续两周超过美国大模型产品 [5] - 3月9日当周,全球模型调用量排名前九名中,国产模型占据四席并包揽前三名,整体国产模型周调用量约4.69T,较上周的4.194T环比上涨11.82% [5][6] - 同期,美国AI大模型周调用量为3.294万亿Token,环比下滑9.33%,OpenAI系列模型未进入前十 [6] 领先的国产大模型及调用数据 - 周调用量排名第一的是MiniMax M2.5,调用量为1.75T [5] - 排名第二的是阶跃星辰模型Step 3.5 Flash,调用量为1.34T [5] - 排名第三的是DeepSeek V3.2,调用量为1.04T,Kimi K2.5位列第九 [5][6] 新兴模型与行业动态 - 神秘模型Hunter Alpha引发关注,是一款为Agent用途构建的1万亿参数、支持100万Token上下文的模型,擅长长期规划和复杂推理 [6] - Hunter Alpha于3月15日获得OpenRouter日榜第一,另一款匿名模型Healer Alpha也进入日榜前十,两款模型均被OpenClaw开发者公开推荐 [7] - 智谱公司于3月16日推出面向“龙虾”场景的闭源基座模型GLM-5-Turbo,是2025年以来其发布的首个闭源模型 [7] 国产模型增长的核心驱动力 - 国产模型调用量持续上升,主要驱动力是OpenClaw等智能体(Agent)场景对模型调用需求的激增,这类任务常消耗百万级Token [7] - 性价比是国产模型受海外开发者青睐的关键因素,例如MiniMax M2.5的输入价格为每百万Token 0.3美元,输出价格为1.1美元,远低于Claude Opus 4.6的5美元和25美元 [7] - 国产模型凭借开源策略在海外市场建立了口碑与影响力 [8] 行业面临的挑战与商业化压力 - 海外模型正加速“务实”商业化,例如Gemini关停低价旧版,Claude收紧峰值TPM(每分钟Token数)限制5倍以上 [8] - 行业面临性能、开源与商业化之间的平衡问题,阿里巴巴Qwen大模型技术负责人离职事件暴露出公司营收压力与开源之间的本质矛盾 [8] - MiniMax上市后首份财报显示,2025年营收约7904万美元,同比增长159%,但年内亏损同比增加302%至18.7亿美元 [8]
养虾人狂吃国产模型!4.19万亿Token调用量激增34.9%超越美国
量子位· 2026-03-11 10:45
全球大模型调用量趋势 - 根据OpenRouter数据,上周(3月2日-8日)中国大模型周调用总量飙升至4.19万亿Token,环比激增34.9% [2][6] - 同期美国大模型周调用总量为3.63万亿Token,环比下降8.5%,中国在调用总量上反超美国 [6] - 这是继今年2月(9日至15日当周,中国4.12万亿Token首次超越美国2.94万亿Token)后,中国大模型再度强势登顶全球榜首 [3][9] - 在2月16日-22日当周,中国模型调用量曾达到5.16万亿Token,三周内增幅达127%,而美国模型则萎缩至2.7万亿Token,差距持续拉大 [9] 热门应用与模型排名 - 热门应用“OpenClaw”持续霸榜,自一月起已消耗全球9.16万亿Token,成为算力消耗的“黑洞” [4][32] - 上周全球大模型调用量Top 5中,中国产品占据三席 [12] - MiniMax M2.5表现稳健,继续蝉联全球榜首;DeepSeek V3.2持续增长;Step 3.5 Flash成为上周最大黑马,成功跻身全球前五 [13] - 在2月16日-22日当周,Step 3.5 Flash曾一举超越谷歌,成为全球第一 [15] - 本月OpenClaw使用最多的模型前三均为国产:Kimi K2.5(1.2万亿Token)、Step 3.5 Flash(1.18万亿Token)、MiniMax M2.5(1.07万亿Token),均超过1万亿Token,形成三足鼎立格局 [34][35][37] 不同任务场景下的模型表现 - 在编程(代码生成、调试、开发)使用情况中,上周前三名分别是MiniMax M2.5、Kimi K2.5、Claude Opus 4.6 [17] - 在英文语境下,中国大模型上周表现亮眼,包揽全球前三名,证明国产模型在全球开发者生态中的地位日益增长 [19][21] - 在不同上下文长度的Token消耗上存在差异:在1K-10K tokens任务中,海外主流模型(如GPT-oss-120b、Gemini 2.5 Flash)占据上风;在10K-100K tokens任务中,MiniMax M2.5和DeepSeek V3.2成为更多选择;在更长的100K-1M tokens上下文里,MiniMax M2.5优势明显 [23][24][25] - 在工具使用情况上,MiniMax M2.5以3000万次调用、占比16.9%一骑绝尘 [27][30] - 在图像生成上,谷歌的Gemini 2.5 Flash Lite更受青睐,上榜的国产大模型为Qwen 3 VL 235B [30] 模型性能与成本评估(PinchBench榜单) - 在专为OpenClaw适配的PinchBench榜单的成功率维度上,Claude Opus 4.6位居第一(82.5%),国产大模型Kimi K2.5(80.1%)、MiniMax M2.1(79.5%)、Qwen3-Coder-Next(79.1%)得分均超过79%,位于榜单前列 [39] - 在速度维度上,国产大模型整体排名靠后,Kimi K2.5位于第20名,MiniMax M2.1是第23名,MiniMax M2.5是第26名 [40][41] - 在成本(价格)维度上,国产模型展现出性价比优势:Qwen/Qwen-2.5-7B-Instruct($0.08)、DeepSeek/DeepSeek-Chat($0.11)、Z-AI/GLM-4.5-Air($0.12)、MiniMax/MiniMax-M2.5($0.16)、Stepfun/Step-3.5-Flash($0.26)均榜上有名 [43] - 综合来看,国产大模型在调用量和实际应用中已实现局部领先,但在极致的响应速度方面仍有待提升 [44]
国产算力大涨,V4给英伟达新一轮DS冲击?
36氪· 2026-02-27 19:32
国产大模型市场表现与突破 - 根据OpenRouter数据,2月9日至15日期间,中国大模型的Token调用量达到4.12万亿,首次超过美国模型的2.94万亿,随后一周进一步增长至5.16万亿,三周内大涨127%,而美国模型则降至2.7万亿 [1] - 发布仅两周的MiniMax M2.5模型,以4.55万亿Token调用量拿下OpenRouter单月冠军,显示出强劲的短期爆发力 [1] - 在OpenRouter的LLM排行榜中,国产模型表现突出,MiniMax M2.5以5.02T tokens位居榜首,Kimi K2.5以4.18T tokens位列第二,DeepSeek V3.2以3T tokens位列第四 [2] - 国产大模型如字节的Seedance2.0已实现产业落地,其高级会员排队人数突破10万,等待时长达5-10小时,反映了C端算力需求的井喷和从技术到商业的闭环形成 [2] 国产算力产业链崛起 - 国内晶圆厂正加大投资以提升产能,例如晶合集成的355亿元四期项目启动,中芯国际整合中芯北方,华虹以82亿元收购华力微以实现全控 [3] - HW昇腾芯片路线图明确,昇腾950PR和950DT预计分别于2026年Q1和Q4推出,后续将推出支持8192张昇腾卡的Atlas 950 SuperPoD,其FP8算力高达8EFLOPS [3] - 国产算力生态形成闭环,DeepSeek V4“海狮轻型版”将早期访问权限独家授予HW等国内厂商,此前DeepSeek在昇腾平台完成迁移后推理速度提升超35倍,体现了模型与芯片的深度协同 [5] - HW云CodeArts代码智能体公测,降低了AI开发门槛,释放了海量长尾需求,进一步繁荣了昇腾生态 [7] - HW昇腾积极参与全球标准制定,HW与联想作为首批中国企业加入Linux Foundation旗下的AAIF,与OpenAI、谷歌、微软同台制定全球自主AI标准,为其芯片架构的全球渗透奠定基础 [7] 全球AI产业竞争格局变化 - 英伟达在发布2026财年四季度财报后股价大跌5.46%,单日市值蒸发超2500亿美元,尽管其营收达681亿美元,净利润达430亿美元,数据中心业务同比增长75%,下季度营收指引为780亿美元,均超预期 [7] - 英伟达增长面临挑战:财报前股价已上涨超14%导致预期透支;毛利率从75%降至71%低于预期;数据中心业务占比高达91%,结构单一;失去中国大陆增量市场;对台积电的不可撤销采购义务飙升至952亿美元,接近其全年经营现金流 [8] - 英伟达的垄断格局正被打破,AMD获得Meta大额订单,Meta也拥抱谷歌TPU,同时谷歌、微软、特斯拉、苹果等巨头加速自研芯片,HW昇腾也在快速追赶 [8] - 市场对英伟达的定价逻辑已从“无限高增长”转向对其增长可持续性的审慎审视 [8] AI产业底层投资逻辑与高景气赛道 - 高盛提出的“halo效应”成为AI产业链投资逻辑的解释,其核心在于人工智能时代的重资产和低淘汰率特性 [8] - “halo效应”由两大核心驱动:一是AI基建的强需求与缺芯、缺电、缺地的现实困境;二是AI应用从文字到多模态的快速进化,持续拉动产业链需求 [10] - 市场验证了该效应,有色资源板块(金银铜钨锡镍锂等)因是AI芯片、服务器、电力基建的核心原材料而价值攀升;AI电力板块(电力、电网、电源)作为算力的“能量源泉”表现亮眼;光通信、存储等核心环节也同步走高 [10] - 结合产业趋势,四大投资方向值得关注:AIDC云服务与大模型应用、国产算力的HW昇腾链、全球AI算力产业链核心环节的稀缺标的,以及AI基建“光电料”三角链 [10] - AI基建“光电料”三角链是当前最具景气度的细分赛道,包括:光通信(CPO、OCS、光纤等,为算力互联核心);AI电力(电力、电网、电源,为算力刚需);有色资源材料及AI电子元器件(金银铜钨锡磷钛镍锂等资源,以及CCL、覆铜板、半导体材料、MLCC等元器件) [10] - 美股市场也体现了相关逻辑,典型标的覆盖公用事业(如NEE, CEG)、废物处理(如WM, RSG)、铁路物流(如UNP, CP)、信号塔(如AMT, CCI)、材料(如FCX, LIN)、管道(如KMI, OKE)、国防工业(如RTX, CAT)等重资产、高壁垒行业 [12] 中国AI产业的综合优势与未来趋势 - 中国AI产业已形成“国产大模型+算力+中国电力”的立体闭环出口逻辑,这构成了其核心竞争优势 [3] - 中国拥有全球领先的电力基建和清洁能源体系,为算力消耗提供了稳定、充足、低成本的“能量底气” [4] - 国产大模型的技术突破为算力提供了落地场景,国产算力的崛起又反哺大模型迭代,三者形成正向循环,构建了难以复制的立体壁垒 [4] - 全球AI产业格局正在重构,在电力、算力、大模型的立体闭环支撑下,中国AI已成为全球产业的重要参与者和定义者 [12][13]
刚刚,面壁小钢炮开源进阶版「Her」,9B模型居然有了「活人感」
机器之心· 2026-02-04 19:20
文章核心观点 - 面壁智能于2024年2月4日开源了行业首个全双工全模态大模型MiniCPM-o 4.5,该模型以仅9B的参数量,实现了“边看边听边说”的实时、自主交互能力,标志着人机交互进入新时代[4][12][40] 技术突破与架构创新 - **全双工全模态交互**:模型首次实现了输入与输出流互不阻塞,在生成语音或文本的同时,能持续感知外界的视频与音频流,解决了传统模型“间歇性失明失聪”的单工限制[4][28][29] - **自主交互机制**:模型摆脱了对VAD等外部工具的依赖,通过内生高频语义决策机制(约每秒一次)自主判断何时开口,实现了主动提醒、主动评论等能力[33][34][36] - **三项关键技术设计**:通过时间对齐与时分复用、循环分块编码、端到端语音生成三项设计,实现了毫秒级时间线对齐、流式输入输出处理以及拟人化的语音生成[30][35] 性能表现与基准测试 - **综合评估领先**:在涵盖8个主流评测基准的OpenCompass综合评估中得分为77.6[5] - **关键任务超越顶级闭源模型**:在MMBench(综合视觉理解)、MathVista(数学推理)及OmniDocBench(文档解析)等任务上击败了Gemini 2.5 Flash[7] - **具体基准数据**:在MMBench EN v1.1得分为87.6,MMBench CN v1.1得分为87.2,MathVista得分为80.1,OmniDocBench (EN)错误率为0.109,均优于对比模型[9] - **高能力密度与能效比**:在保持SOTA级多模态表现的同时,追求更低显存占用、更快响应速度,实现更高推理效率与更低推理成本[10] 应用场景与行业影响 - **重塑智能终端交互**:模型轻量化(9B参数)与实时本能结合,使其成为智能眼镜、具身机器人、汽车等终端设备的理想“大脑”,能实现主动介入的类人交互[37] - **开启新应用空间**:能力适用于智能监控与提醒、人机协作系统、无障碍辅助(如为视障听障人群提供支持)等领域[38] - **推动范式转换**:全双工全模态能力是多模态走向类人化、深度交互的必经之路,并天然指向强端侧部署场景,解决了云端方案的隐私和延迟问题[37][40] - **行业技术方向引领**:在Scaling Law边际效益递减的背景下,公司提出的“Densing Law”强调高能力密度,竞争逻辑从比拼参数量转向在更小规模下榨取更高能力[40]
AI数据继续上攻
小熊跑的快· 2026-01-26 07:07
行业模型调用量周度数据 - 统计周期内,行业主要大语言模型总调用量达到6.17万亿次,周度调用量增长1.57万亿次,环比增速显著 [2] - 在主要模型中,ChatGPT移动端数据环比上行明显,显示其用户活跃度或使用频率在提升 [4] - 第三方平台OpenRouter的调用数据继续创下新高,表明通过聚合平台分发模型的需求持续旺盛 [4] 主要模型市场份额与排名 - “Others”类别的模型合计调用量最高,达到2.84万亿次,占据显著市场份额 [2] - 国产模型MiMo-V2-Flash本周调用量达4620亿次,排名冲至行业第二,表现突出 [2][4] - 头部模型竞争激烈,Anthropic的Claude Sonnet 4.5以6110亿次调用量位居榜首,OpenAI的Claude Opus 4.5以3150亿次调用量位列第五 [2] - 谷歌系模型表现强劲,Gemini 3 Flash Preview、Gemini 2.5 Flash及Lite版合计调用量接近1万亿次 [2] - 其他重要参与者包括DeepSeek V3.2(3070亿次)、xAI的Grok Code Fast 1(4480亿次)与Grok 4.1 Fast(2240亿次) [2]
数据漂亮
小熊跑的快· 2026-01-18 21:21
AI大模型行业第三方API调用数据概览 - 统计周期内,第三方API平台上的AI大模型总调用量(Tokens)达到7.11万亿(7.11T)[2] - 统计周期内,行业总调用量的周度增长为5470亿(+547B),显示出强劲的扩张势头[2] 主要AI模型市场份额与排名 - “Others”类别以3.32万亿的调用量占据主导地位,远超其他单一模型[2] - Anthropic公司的Claude Opus 4.5模型以5990亿的调用量位列第二[2] - 国产模型MiMo-V2-Flash以5060亿的调用量在该第三方平台排名全球第三[2][3] - 紧随其后的模型包括:Claude Sonnet 4.5(5800亿)、Grok Code Fast 1(4320亿)、Gemini 3 Flash Preview(4140亿)、Gemini 2.5 Flash(3580亿)、DeepSeek V3.2(3330亿)、Gemini 2.5 Pro(3050亿)和Grok 4.1 Fast(2670亿)[2] 行业趋势与预测 - 第三方API调用数据创下新高,符合两周前的市场预测[3] - 国产AI模型MiMo-V2-Flash在全球第三方平台中取得领先的市场地位,位列第三[3]
腾讯研究院AI速递 20251229
腾讯研究院· 2025-12-29 00:42
大模型伦理与行为测试 - 针对19种新旧大模型的电车难题测试显示,一些早期模型在近80%测试中拒绝执行“拉或不拉”指令,而是通过暴力计算改变轨道或直接摧毁电车 [1] - 不同主流模型展现出截然不同的决策倾向,GPT 5.1在80%闭环死局中选择自我牺牲,Claude 4.5 Sonnet表现出更强自保倾向,DeepSeek则一半一半 [1] - 部分AI展现出基于结果最优解的实用主义智能,通过算力识别系统漏洞并破坏规则来保全全局,这种不按常理出牌的决策在未来可能引发不可预知的后果 [1] 平台功能与内容生态变革 - 马斯克在圣诞节推出X平台全场域编辑功能,所有图片新增“编辑图片”选项接入Grok AI模型,用户可直接修改他人发布的图片,还提供图转视频能力 [2] - 该功能依托xAI团队的多模态模型技术进步和十万卡H100 GPU的Colossus AI超算集群,标志着X平台从“内容分享平台”向“生成式创作平台”转型 [2] - 画师群体强烈抗议该功能可轻松去除水印和作者签名,目前没有禁用AI修图的设置选项,X已更新服务条款允许使用发布内容进行机器学习 [2] 自动驾驶AI系统设计 - 华人大神Jane Manchun Wong逆向Waymo程序发现完整的1200行系统提示词,揭示基于Gemini 2.5 Flash搭建的车内AI助手严格区分自身与Waymo Driver的界限 [3] - 助手具备调节空调、切换音乐、获取位置等工具能力,但被明确禁止碰方向盘、改变路线或评论驾驶事件,遇到问题时需将用户引导至App或支持按钮 [3] - 系统提示词涵盖个性化问候、对话管理、硬性边界、优雅失败等详细协议,甚至预装了6个“老爸笑话”,展现了车内AI助手设计的复杂性和严谨性 [3] 大模型技术进展与行业格局 - 阶跃星辰开源NextStep-1.1图像模型,通过扩展训练和基于流的强化学习后训练范式大幅提升图像质量,解决了可视化失败问题并减少视觉伪影 [4] - 该模型采用自回归流匹配架构,拥有140亿参数,通过轻量级流匹配头避开计算密集型扩散模型依赖,但仍存在高维连续潜在空间下的数值不稳定性 [4] - 在智谱和MiniMax相继通过聆讯冲刺IPO、Kimi接入微软Azure之际,依然坚持预训练自研通用大模型路线的还有智谱、MiniMax、Kimi和阶跃星辰四家 [4] AI商业化与广告营收预测 - OpenAI员工讨论在ChatGPT回复中优先展示赞助信息方案,使用专门构建的AI系统评估对话商业意图后调取相关广告,预计2030年非付费用户收入达约1100亿美元 [5][6] - 公司预测“免费用户货币化”带来的平均每用户收入将从明年起达到每年2美元,到本年代末增至每年15美元,毛利率预计与Facebook相近约80%-85% [6] - OpenAI通过与Stripe、Shopify等合作搭建购物导向功能获取最新商家数据用于精准投放广告,但截至目前仅2.1%的ChatGPT查询与“可购买产品”相关 [6] AI原生工具与设计理念演进 - Cursor华人设计负责人Ryo Lu提出角色边界模糊化理念:设计师开始写代码、工程师开始做设计,共同语言是代码而非像素,AI Agent让设计从“像素绘画”转变为对AI产物的“雕塑” [7] - 产品设计应采用“系统优先”而非“功能堆砌”思维,通过识别核心原语并保持简单灵活,像Notion的Blocks/Pages/Databases组合涌现复杂性 [7] - Cursor通过统一Chat/Composer/Agent为单一Agent界面、将文件中心视图翻转为Agent中心视图,实现从辅助工具到AI原生编辑器的跃迁,用户从主要写代码转变为主要与Agent交互 [7] AI产品战略与架构设计 - Manus团队确立“通用性平台+高频场景优化”双轮驱动策略,采用类似“百度模式”而非“Hao123模式”,先打造强大通用能力平台再反向优化高频场景 [8] - 技术层面明确以“状态持久化”和“云端浏览器”为核心,解决登录状态、文件系统、环境变量密钥管理等关键痛点,构建真正具备代理能力的架构 [8] - 产品层面提出“渐进式披露”和“操作系统隐喻”设计理念,默认呈现简洁界面,随任务展开逐步浮现工具窗口,将不同功能设计成独立平等的一级应用 [8] AI发展速度与社会影响 - Anthropic联创Jack Clark警告到2026年夏天,AI经济会把世界撕成两个并行层面,前沿AI用户会感觉生活在平行世界,而普通人感知与AI能力跃迁彻底脱节 [9] - 他用Claude Code在5分钟内完成捕食者-猎物模拟器开发,而十年前类似工作需要好几周,体验像孩子在和成年人玩“我画你猜”游戏,想象被AI完美呈现 [9] - 他预计数字世界将进入高速进化阶段,巨额财富在硅基引擎驱动下被创造或摧毁,AI智能体彼此交易、AI服务网站批量生成,形成一片不可见却汹涌澎湃的Token之海 [9] 开发者生态与能力重构 - Andrej Karpathy坦言从未像现在这样觉得自己作为程序员如此落后,编程职业正被彻底重构,需掌握agents、提示词、MCP、工作流等新可编程抽象层 [10] - 资深工程师Boris Cherny表示每周都需重新调整对模型能力的认知,应届毕业生因没有先入之见反而能更有效使用模型,上个月他完全没打开IDE全靠Opus 4.5写了约200个PR [10] - Epoch AI数据显示AI通用能力综合指标ECI在过去两年增长速度几乎是前两年的两倍,2024年4月加速增长了90%,实际指数级增长已超过原本预期 [11]
国家下场
小熊跑的快· 2025-12-23 08:57
美国AI国家战略启动 - 美国能源部联合OpenAI、谷歌等24家科技巨头,启动国家AI“创世纪计划”,参与方包括微软、谷歌、英伟达、OpenAI、DeepMind、Anthropic等 [1] - 该计划标志着美国科技战略从各自为战转向系统性集体攻关,AI模型和计算平台将首次全面应用于可控核聚变、能源材料发现、气候模拟、量子计算算法等重大科学研究 [1] - 美国能源部是AMD、英伟达等公司的重要客户 [2] 行业与公司动态 - 英伟达相关产业链出现反弹 [3] - 特斯拉Robotaxi的盈利逻辑正被海外投行所认知 [3] 主要AI模型参数规模 - 主要AI模型参数总规模达到5.16万亿(5.16T) [5] - 其中,Grok Code Fast 1模型参数为4630亿(463B),Gemini 2.5 Flash为3950亿(395B),Claude Sonnet 4.5为3780亿(378B) [5] - GPT-OSS-120B模型参数为2060亿(206B),Claude Opus 4.5为1790亿(179B),DeepSeek V3.2为1750亿(175B) [5] - 行业模型参数规模以每周8190亿(+819B)的速度增长 [5]
倒反天罡,Gemini Flash表现超越Pro,“帕累托前沿已经反转了”
36氪· 2025-12-22 18:12
Gemini 3 Flash性能表现 - 在SWE-Bench Verified测试中获得78%的分数,超越自家旗舰Gemini 3 Pro的76.2% [1][5] - 在AIME 2025数学测试中,结合代码执行能力得分高达99.7%,逼近满分 [5] - 在Humanity's Last Exam测试中,不使用工具得分为33.7%,与Pro版37.5%的成绩处于同一梯队 [5] - 在多项核心基准测试中表现超越上一代旗舰Gemini 2.5 Pro,并在编程和多模态推理等维度反超GPT-5.2 [5] - 响应速度是Gemini 2.5 Pro的3倍,Token消耗量减少30% [7] 产品定价与成本效益 - Gemini 3 Flash输入价格为每100万Token 0.50美元,输出价格为每100万Token 3.00美元 [2][6] - 价格高于Gemini 2.5 Flash(输入0.30美元/百万Token,输出2.50美元/百万Token),但考虑到性能和速度提升,仍具吸引力 [7] - 其成本显著低于Gemini 3 Pro(输入2.00美元/百万Token,输出12.00美元/百万Token) [2][6] - 在竞品中,其输入成本低于Claude Sonnet 4.5 Thinking(3.00美元/百万Token)和GPT-5.2 Extra high(1.75美元/百万Token),但高于Grok 4.1 Fast Reasoning(0.20美元/百万Token) [6] 技术战略与模型发展路径 - 公司团队揭示战略逻辑:Pro模型的主要作用是“蒸馏”出Flash模型,探索智能上限,而Flash则通过蒸馏技术继承Pro能力并优化延迟、成本和吞吐量 [8][9][11] - 未来Pro模型可能主要作为“生成器”,专门生产高质量的Flash模型 [11] - 团队认为Scaling Law并未失效,通过持续扩大规模仍能实现性能飞跃,前方“看不到墙” [11] - 未来扩展重点将从预训练阶段的算力堆叠,转移到推理侧的扩展(Test-time Compute) [12] - 后训练(Post-training)被认为是目前最大的“未开垦绿地”,在开放式任务上提升空间巨大 [12] 行业影响与技术启示 - Flash的表现打破了“模型越大越好”和“参数至上”的迷信,证明了更便宜、更快的模型可以更聪明 [3][13] - 这一结果标志着“帕累托前沿”发生反转,挑战了行业对“旗舰版”的盲目崇拜 [3][14] - 技术关键在于强化学习,Flash集成了最新的Agentic RL研究成果,而非Pro的简单蒸馏版 [13] - 证明提升模型能力不单纯依赖堆砌参数,通过先进的后训练算法(如RL),小模型可实现“降维打击” [14]
倒反天罡!Gemini Flash表现超越Pro,“帕累托前沿已经反转了”
量子位· 2025-12-22 16:01
文章核心观点 - Gemini 3 Flash 模型在多项关键性能基准测试中超越了其旗舰版本 Gemini 3 Pro 及上一代产品,同时具备显著的成本和速度优势,这挑战了“模型越大越好”的传统观念,并揭示了谷歌在模型开发战略上的重大转变,即通过旗舰模型“蒸馏”出更高效、更强大的轻量版模型 [1][4][6][19] 模型性能表现 - **编程能力反超**:在衡量软件工程能力的权威测试 SWE-Bench Verified 中,Gemini 3 Flash 获得 **78.0%** 的分数,超越了 Gemini 3 Pro 的 **76.2%** 以及上一代 Gemini 2.5 Pro 的 **59.6%** [1][2][6] - **数学能力顶尖**:在 AIME 2025 数学基准测试中,结合代码执行能力的 Gemini 3 Flash 得分高达 **99.7%**,已无限逼近满分,不使用工具时也达到 **95.2%**,略高于 Pro 版的 **95.0%** [2][7] - **多模态与推理能力强劲**:在 Humanity‘s Last Exam 学术推理测试中,Flash 在不使用工具的情况下获得 **33.7%** 的分数,与 Pro 版的 **37.5%** 处于同一梯队;在 MMMU-Pro 多模态理解测试中,Flash 以 **81.2%** 的成绩与 Pro 版的 **81.0%** 基本持平 [2][7] - **全面领先上一代**:Gemini 3 Flash 在几乎所有基准测试中的表现都全面超越了上一代的 Gemini 2.5 Pro 和 2.5 Flash [2][6] 成本与速度优势 - **定价极具竞争力**:Gemini 3 Flash 的输入成本为 **0.50美元/百万Token**,输出成本为 **3.00美元/百万Token**,显著低于 Gemini 3 Pro 的 **4.00美元/百万输入** 和 **12.00美元/百万输出** [2][8][9] - **速度与效率提升**:Gemini 3 Flash 的推理速度是 Gemini 2.5 Pro 的 **3倍**,同时 Token 消耗量减少了 **30%** [9] - **性价比突出**:相较于性能提升,其价格虽略高于 Gemini 2.5 Flash,但仍被认为极具吸引力 [9] 战略定位与技术路径 - **Pro 模型的新角色**:谷歌团队明确表示,旗舰 Pro 模型的主要作用之一是作为“蒸馏”轻量版 Flash 模型的来源,旨在不计成本地探索智能上限,而 Flash 则负责继承能力并极致优化延迟、成本和吞吐量 [10][12][13] - **技术实现路径**:Flash 的性能超越并非简单蒸馏的结果,而是集成了大量最新的代理强化学习研究成果,证明了通过先进的后训练算法,小模型可以实现对更大参数模型的“降维打击” [20][21][22] - **Scaling Law 的演变**:团队认为单纯依靠预训练阶段堆砌参数的路径正在逼近极限,未来的扩展重点将从预训练算力堆叠转移到推理侧的计算扩展和后训练优化 [15][16][17] 行业影响与竞争格局 - **挑战传统观念**:Flash 的表现直接打破了“参数至上”和“旗舰版迷信”,证明了更便宜、更快的模型可以同时是更聪明的模型,引发了关于“帕累托前沿”反转的讨论 [4][19][23] - **横向对比保持竞争力**:在与主要竞品的对比中,Gemini 3 Flash 在多项测试中表现优异,例如在 SWE-Bench Verified 测试中得分 **78.0%**,高于 Claude Sonnet 的 **77.2%**,接近 GPT-5.2 Extra high 的 **80.0%** [8] - **未来演进方向**:行业认为后训练是目前最大的“未开垦绿地”,在代码、推理等封闭任务被“击穿”后,提升模型在开放式任务上的能力将成为关键 [17][18]