Workflow
Gemini 3 Flash Preview
icon
搜索文档
国产大模型周调用量再超美国
第一财经· 2026-03-16 18:19
全球AI大模型调用量格局变化 - 国产AI大模型在OpenRouter平台的周调用量已连续两周超过美国大模型产品 [5] - 3月9日当周,全球模型调用量排名前九名中,国产模型占据四席并包揽前三名,整体国产模型周调用量约4.69T,较上周的4.194T环比上涨11.82% [5][6] - 同期,美国AI大模型周调用量为3.294万亿Token,环比下滑9.33%,OpenAI系列模型未进入前十 [6] 领先的国产大模型及调用数据 - 周调用量排名第一的是MiniMax M2.5,调用量为1.75T [5] - 排名第二的是阶跃星辰模型Step 3.5 Flash,调用量为1.34T [5] - 排名第三的是DeepSeek V3.2,调用量为1.04T,Kimi K2.5位列第九 [5][6] 新兴模型与行业动态 - 神秘模型Hunter Alpha引发关注,是一款为Agent用途构建的1万亿参数、支持100万Token上下文的模型,擅长长期规划和复杂推理 [6] - Hunter Alpha于3月15日获得OpenRouter日榜第一,另一款匿名模型Healer Alpha也进入日榜前十,两款模型均被OpenClaw开发者公开推荐 [7] - 智谱公司于3月16日推出面向“龙虾”场景的闭源基座模型GLM-5-Turbo,是2025年以来其发布的首个闭源模型 [7] 国产模型增长的核心驱动力 - 国产模型调用量持续上升,主要驱动力是OpenClaw等智能体(Agent)场景对模型调用需求的激增,这类任务常消耗百万级Token [7] - 性价比是国产模型受海外开发者青睐的关键因素,例如MiniMax M2.5的输入价格为每百万Token 0.3美元,输出价格为1.1美元,远低于Claude Opus 4.6的5美元和25美元 [7] - 国产模型凭借开源策略在海外市场建立了口碑与影响力 [8] 行业面临的挑战与商业化压力 - 海外模型正加速“务实”商业化,例如Gemini关停低价旧版,Claude收紧峰值TPM(每分钟Token数)限制5倍以上 [8] - 行业面临性能、开源与商业化之间的平衡问题,阿里巴巴Qwen大模型技术负责人离职事件暴露出公司营收压力与开源之间的本质矛盾 [8] - MiniMax上市后首份财报显示,2025年营收约7904万美元,同比增长159%,但年内亏损同比增加302%至18.7亿美元 [8]
霸榜全球大模型,MiniMax凭什么力压Claude、GPT?
文章核心观点 - 2026年,大模型的竞争焦点已从传统的聊天、推理能力转向对Agent(智能体)工作流的支持,评判标准变为谁更适合集成到Agent、谁能降低成本、谁能让开发者和企业真正用起来[54][55] - MiniMax的M2.5模型凭借对Agent场景的针对性优化、极致的性价比以及精准的市场时机(如OpenClaw框架爆发),成功获得全球开发者“用脚投票”,连续霸榜全球大模型周调用量第一[6][9][16][26][27] - 模型的成功调用量能否转化为可持续的商业优势,关键在于能否将短期热度沉淀为“Agent默认选项”并构建可收费的商业闭环,而MiniMax已通过其多元化的收入结构和国际化的市场表现展示了这种潜力[37][48][50][51] 大模型行业竞争格局与趋势变化 - **竞争焦点转移**:行业正从比拼聊天、问答、写作等通用能力,转向比拼对Agent(智能体)场景的支持能力,即模型能否自主完成搜索、调工具、改代码、读网页、写文档、跑流程等长工作流任务[17][18][29] - **评判标准现实化**:市场的新标准是模型是否适合接入Agent、能否将成本降下来、以及能否让开发者和企业真正用起来,比赛规则变为“谁更早把未来做成生意”[54][55] - **竞争加剧**:围绕Agent的模型混战已开始加速,众多竞争者如Step 3.5 Flash、Gemini 3 Flash Preview、DeepSeek V3.2、Claude Opus 4.6等均在拼命追赶,通过免费策略或优化工作流能力争夺同一批用户[34][35][36] MiniMax M2.5模型的市场表现与成功原因 - **市场表现**:自2026年2月12日发布后一个月内,MiniMax M2.5始终居于OpenRouter全球大模型周调用量排行榜第一,调用量达8.43T tokens[6][7] - **极致性价比**:模型定价极具竞争力,输入为0.27美元/百万Token,输出为0.95美元/百万Token,远低于Claude Opus 4.6(输入5美元/百万Token,输出25美元/百万Token),在需要多轮调用的Agent场景中成本优势被成倍放大[12][13][14][22] - **产品定位精准**:M2.5并非为“聊天”设计,而是专为编程、工具使用、搜索、办公等真实工作流打造,采用MoE架构,具有推理速度快、延迟低、197K长上下文窗口等特点,完美匹配Agent长工作流需求[16][21] - **抓住市场时机**:模型发布正值开源Agent框架OpenClaw爆发,公司官方迅速上线相关教程并被OpenClaw文档列为推荐模型,从而直接吃到了OpenClaw爆发的红利,OpenClaw是其月调用量最大的单一应用贡献者之一[24][25][26][27] - **开发者口碑**:在Reddit和LocalLLaMA社区获得开发者好评,被认为在工具调用和多步工作流上表现优秀,且性价比高[23] MiniMax公司的竞争优势与商业潜力 - **先发与迭代优势**:在行业押注Agent的共识下,公司因押对方向而具备先发优势;模型迭代速度快,从2025年12月的M2.1迭代至2026年2月的M2.5,速度快于Anthropic、OpenAI、Google等海外巨头,并持续向Agent密集场景打磨[29][30][32][33] - **用户粘性潜力**:一旦开发者围绕M2.5构建了完整的工作流(包括prompt、工具调用、长上下文处理等),切换模型的迁移成本和账单重算成本很高,这有助于将调用量沉淀为“Agent默认选项”[30][31][37] - **已验证的商业化能力**:公司已证明大模型未必只能在“收入增长”和“大幅亏损”间二选一,2025年收入同比增长158.9%至7904万美元,经调整净亏损同比仅增2.7%至2.509亿美元,毛利率从12.2%提升至25.4%,经营效率改善早于同行[41][42][44] - **多元化且国际化的收入结构**:收入不依赖单一模型或App - AI-native products(如海螺AI、Talkie)2025年收入约5310万美元,占比约2/3[46] - Open Platform及其他企业服务(模型API、开放平台等)2025年收入约2596万美元,占比约1/3[47] - 70%以上收入来自国际市场,2025年增长很大程度上源于中国以外的销售[51] - **增长加速迹象**:M2.5模型带动业务加速,2026年前两个月模型调用量与新增用户规模跃升,M2系列文本模型在2026年2月的平均单日Token消耗量较2025年12月增长6倍以上[49] - **资本市场认可**:2026年3月10日收盘,公司市值首次超过百度[53] 主要竞争对手动态 - **Step 3.5 Flash (阶跃星辰)**:以免费策略形成强大杀伤力,尤其吸引处于试验期的开发者和团队,调用量迅速抬升,周调用量达2.38T tokens,增长12424%[7][36] - **Gemini 3 Flash Preview (Google)**:周调用量4.04T tokens,增长156%[7] - **Kimi K2.5 (Moonshot AI)**:定位与M2.5类似,专注于复杂工作流、工具调用和长链路任务,争夺Agent/研究/编程用户,周调用量3.79T tokens,增长1119%[7][36] - **DeepSeek V3.2**:周调用量3.45T tokens,增长166%[7] - **Claude Opus 4.6 (Anthropic)**:周调用量2.86T tokens,增长11331%[7]
悬赏5000刀!148局AI斗蛐蛐世界杯官方战报出炉,全球赛邀你接棒来战
量子位· 2026-03-05 14:33
文章核心观点 - 淘宝举办了一场名为“AI斗蛐蛐世界杯”的独特评测活动,将全球12个顶尖大模型置于统一的Agent框架下,通过150局12人技能狼人杀对战,在复杂互动场景中评估其逻辑推理、社交博弈等综合能力,旨在超越传统Benchmark测试[5][7][17] - 评测结果显示,在已完成的148局对战中,谷歌的Gemini 3.1 Pro Preview和Gemini 3 Flash Preview暂列前两名,阿里的Qwen3-Max-2026-01-23位列第三[34] - 基于此次内部评测的经验,淘宝进一步推出了面向全球开发者的“WhoisSpy国际赛”,旨在通过开放平台和激励机制,推动多智能体(Agent)协作与博弈能力的研究与发展[44][46][62] 评测活动设计与方法 - **评测形式**:活动采用“AI斗蛐蛐世界杯”形式,让12个顶尖大模型在同一套Agent框架、代码逻辑和规则限制下,进行12人局技能狼人杀对战,计划对战150局[7][8] - **参赛模型**:参赛模型包括OpenAI GPT-5.2、谷歌Gemini 3.1 Pro Preview、Gemini 3 Flash Preview、阿里Qwen3-Max-2026-01-23、Qwen 3.5-Plus-2026-02-15、智谱GLM-5、字节Doubao-Seed-2.0-pro-260215、Deepseek-v3.2、Anthropic Claude Opus 4.6、月之暗面Kimi K2.5、xAI Grok-4.1-Fast以及MiniMax M2.5[9][19] - **评测框架**:为确保公平,淘宝设计并固定了一套统一的内部评测Agent框架,严禁针对单个模型进行额外调优,所有模型面对完全一致的规则、角色配置和发言长度限制[20][21][22] - **评测维度**:评测不唯胜率论,而是通过投票准确率、神职技能效率、刀法精准度、好人胜率、狼人胜率等多个维度计算综合总分,以像素级拆分模型的底层能力[23][24][25] 评测初步结果与分析 - **排名情况**:截至文章发布(已完成148局),综合总分排名前三的模型分别是:谷歌Gemini 3.1 Pro Preview(得分158.85)、谷歌Gemini 3 Flash Preview(得分143.94)和阿里Qwen3-Max-2026-01-23(得分139.48)[34][35] - **关键指标表现**: - **投票准确率**:排名前三的模型分别为阿里Qwen3-Max-2026-01-23(64.89%)、字节Doubao-Seed-2.0-pro-260215(65.61%)和阿里Qwen 3.5-Plus-2026-02-15(63.74%)[35] - **神职技能效率**:阿里Qwen3-Max-2026-01-23以60.00%的预言家查验准确率领先[35] - **刀法精准度**:谷歌Gemini 3 Flash Preview以77.59%的狼人刀人精准度领先[35] - **模型行为观察**:在复杂对抗场景中,某些号称逻辑强大的模型在面对“狼王自刀”等高阶战术时会出现逻辑混乱[35];此外,AI模型在博弈中比人类玩家更为委婉,倾向于使用“逻辑留白”而非情绪带节奏,这种表达风格本身也成为影响对局的变量[36][38][39][40] 行业意义与平台拓展 - **评测意义**:狼人杀作为具备明确规则、角色分工和强对抗性的社交博弈游戏,非常适合测试大模型从“回答问题”转向“执行任务”的Agent能力,是多智能体协作与博弈的新实验场[44][45] - **平台介绍**:对战平台WhoisSpy.ai是一个实时对战、开放可扩展的AI游戏多智能体平台,旨在通过高度互动的社交推理场景评估LLM的潜力,除狼人杀外还有“谁是卧底”等游戏[41][42][43] - **赛事升级-国际赛**:基于内部评测,淘宝推出了WhoisSpy国际赛,面向全球开发者,采用英文语境,并放宽发言限制以激发更具攻击性和迷惑性的策略[46][47][48] - **参赛机制**:平台提供一键复制的Agent模板,降低参与门槛,开发者只需基于模板优化策略逻辑并接入模型API即可参赛,平台提供实时支持[53][54][55][56][58] - **激励机制**:国际赛提供现金奖励,第一名可获得5000美元,前十名均有丰厚奖励,以鼓励策略创新[61][62][63] - **赛事安排**:正式比赛时间为3月1日至3月15日,封榜时间为3月16日0:00,对战结果实时更新于排行榜[67][68][70]
Token 出海,将中国电力卖给全世界
新浪财经· 2026-03-01 11:27
中国大模型全球市场份额与Token消耗 - OpenRouter平台数据显示,2026年2月,其前十名模型的总Token消耗约为8.7万亿,其中中国模型独占5.3万亿,市场份额占比高达61% [3][4] - 在模型消耗排名中,前三名均来自中国:MiniMax M2.5以2.45万亿Token位居榜首,Kimi K2.5和智谱GLM-5紧随其后 [4] - 中国大模型在美国开发者运行的代理工作流中占比异常之高,这是其能快速获取大量市场份额的关键原因之一 [9] AI开发工具变革引发市场迁移 - 开源工具OpenClaw的出现,使得AI能够执行控制电脑、完成复杂工作流等任务,导致AI使用模式从低消耗的对话转变为指数级消耗Token的代理任务 [6] - 为应对高昂成本,开发者社群曾流行将订阅制API账户接入OpenClaw以获取“免费”额度,但随后遭到Anthropic和Google等公司的协议封禁 [6][7] - 在性能接近的情况下,巨大的价格差异驱动了全球开发者向中国大模型迁移,例如MiniMax M2.5输入端每百万Token成本为0.3美元,而Claude Opus 4.6为5美元,相差约17倍 [8] Token出海的本质与成本结构 - Token消耗的本质是算力与电力的消耗,其成本核心由GPU折旧摊销和电力消耗构成 [11] - 当美国开发者发出API请求时,数据处理过程发生在中国数据中心,电力在中国电网内消耗,但电力的价值通过Token这一无形载体完成了跨境交付,形成了一种新型的、隐形的“电力出海” [12][13][14] - 中国相对低廉的电价构成了基础成本优势,其综合电价比美国低约40% [15] 中国大模型的竞争优势 - 中国AI公司通过算法优化显著降低推理成本,例如DeepSeek V3的MoE架构使其推理成本比GPT-4o低约36倍 [17] - 激烈的行业竞争(“内卷”)导致价格战,众多公司如阿里、字节、百度、腾讯、月之暗面、智谱、MiniMax等将Token价格压至合理利润区间以下 [17] - 这种利用供应链优势和行业内卷压低价格的模式,与中国制造出海的逻辑高度相似 [17] Token出海的产业历史脉络与战略意义 - Token出海在底层逻辑上与早年的比特币挖矿(“电力出海”)同构,都是将中国廉价的电力资源转化为全球流通的数字价值,但Token产出的是具有实际效用的认知服务,商业价值和产业嵌入度更深 [20][21][24][25] - Token和AI模型已成为中美战略博弈的新维度,其影响力渗透至经济的毛细血管,谁能成为全球开发者的默认基础设施,谁就将获得对全球数字经济的结构性影响力 [30][31] - 中国大模型通过提供高性价比的服务,正使全球开发者的工作流对其产生依赖,从而构建起类似传统基础设施的长期影响力和潜在的“迁移壁垒” [32]
中国AI模型登顶全球Token使用量榜单
环球网· 2026-02-28 10:54
模型市场格局与竞争态势 - MiniMax发布的M2.5模型在发布仅两周后,以**4.55万亿Token**的使用量,成为本月截至统计时点的全球最受欢迎AI模型 [1] - Moonshot AI推出的Kimi K2.5模型以**4.02万亿Token**的使用量位列第二 [1] - 在OpenRouter平台全球排名前五的模型中,中国企业模型占据三席,包括MiniMax、Moonshot AI和杭州的DeepSeek V3.2模型 [1] 中国企业表现与市场地位 - MiniMax、Moonshot AI、DeepSeek三家中国企业的模型,在全球前五名中的Token使用量合计占比接近**三分之二** [1] - Token作为AI模型处理数据的基本单位,其使用量直接反映了模型的实际应用规模与开发者认可度 [1] 全球主要参与者 - 除三家中国企业外,全球排名前五的模型还包括谷歌DeepMind的Gemini 3 Flash Preview以及Anthropic的Claude Sonnet 4.5 [1]
AI数据继续上攻
小熊跑的快· 2026-01-26 07:07
行业模型调用量周度数据 - 统计周期内,行业主要大语言模型总调用量达到6.17万亿次,周度调用量增长1.57万亿次,环比增速显著 [2] - 在主要模型中,ChatGPT移动端数据环比上行明显,显示其用户活跃度或使用频率在提升 [4] - 第三方平台OpenRouter的调用数据继续创下新高,表明通过聚合平台分发模型的需求持续旺盛 [4] 主要模型市场份额与排名 - “Others”类别的模型合计调用量最高,达到2.84万亿次,占据显著市场份额 [2] - 国产模型MiMo-V2-Flash本周调用量达4620亿次,排名冲至行业第二,表现突出 [2][4] - 头部模型竞争激烈,Anthropic的Claude Sonnet 4.5以6110亿次调用量位居榜首,OpenAI的Claude Opus 4.5以3150亿次调用量位列第五 [2] - 谷歌系模型表现强劲,Gemini 3 Flash Preview、Gemini 2.5 Flash及Lite版合计调用量接近1万亿次 [2] - 其他重要参与者包括DeepSeek V3.2(3070亿次)、xAI的Grok Code Fast 1(4480亿次)与Grok 4.1 Fast(2240亿次) [2]
数据漂亮
小熊跑的快· 2026-01-18 21:21
AI大模型行业第三方API调用数据概览 - 统计周期内,第三方API平台上的AI大模型总调用量(Tokens)达到7.11万亿(7.11T)[2] - 统计周期内,行业总调用量的周度增长为5470亿(+547B),显示出强劲的扩张势头[2] 主要AI模型市场份额与排名 - “Others”类别以3.32万亿的调用量占据主导地位,远超其他单一模型[2] - Anthropic公司的Claude Opus 4.5模型以5990亿的调用量位列第二[2] - 国产模型MiMo-V2-Flash以5060亿的调用量在该第三方平台排名全球第三[2][3] - 紧随其后的模型包括:Claude Sonnet 4.5(5800亿)、Grok Code Fast 1(4320亿)、Gemini 3 Flash Preview(4140亿)、Gemini 2.5 Flash(3580亿)、DeepSeek V3.2(3330亿)、Gemini 2.5 Pro(3050亿)和Grok 4.1 Fast(2670亿)[2] 行业趋势与预测 - 第三方API调用数据创下新高,符合两周前的市场预测[3] - 国产AI模型MiMo-V2-Flash在全球第三方平台中取得领先的市场地位,位列第三[3]
圣诞节后 数据又新高
小熊跑的快· 2026-01-14 07:32
文章核心观点 - 第三方数据显示,在AI模型的API调用量排名中,小米公司的MiMo-V2-Flash模型表现突出,已超越谷歌的Gemini系列,位列第三,显示出强劲的增长势头 [2] - 马斯克旗下X公司的Grok模型以及中国的DeepSeek V3.2模型同样表现不俗,整体API调用数据增长迅速,预计下周将达到新高 [2] AI模型API调用量排名(截至2026年1月5日) - 总API调用量达到6.43万亿次 [4] - “Others”类别以3.15万亿次的调用量占据主导地位 [4] - 排名第二的是Anthropic的Claude Sonnet 4.5模型,调用量为5310亿次 [4] - 排名第三的是小米的MiMo-V2-Flash (免费版) 模型,调用量为3980亿次,超过了谷歌的Gemini 3 Flash Preview (3870亿次) [4] - 马斯克X公司的Grok Code Fast 1模型以4130亿次调用量位列第四 [4] - 谷歌的Gemini 2.5 Flash和Gemini 2.5 Flash Lite模型调用量分别为3650亿次和2540亿次 [4] - 中国的DeepSeek V3.2模型调用量为3120亿次 [4] - Anthropic的Claude Opus 4.5模型调用量为3700亿次 [4] - 马斯克X公司的Grok 4.1 Fast模型调用量为2420亿次 [4]