2月井喷,中国AI调用量首超美国,四款大模型霸榜全球前五,国产算力需求正经历指数级增长
36氪·2026-02-27 11:31

全球AI模型调用量格局剧变 - 2026年2月9日至15日当周,中国AI模型以4.12万亿Token的调用量首次超过美国模型的2.94万亿Token,实现历史性赶超[1][6][7] - 随后一周(2月16日至22日),中国模型调用量进一步冲高至5.16万亿Token,三周内大涨127%,而同期美国模型调用量则跌至2.7万亿Token[1][7] - 全球调用量排名前五的模型中,中国模型占据四席,显示增长动能来自厂商集群式崛起,而非单一爆款产品[1][7] 中国市场增长轨迹 - 全球大模型Token调用量在过去一年(2025年3月3日至9日至2026年2月中旬)经历了爆发式增长,平台前十大模型的周调用量从1.24万亿Token飙升至13.95万亿Token,增长超过10倍[6] - 2025年,美国模型是市场主要动力,其Token周调用量一度占据平台前十大模型总量的近七成,而中国模型占比不到两成[6] - 进入2026年,美国模型增速显露疲态,中国模型开启“狂飙”模式,2月第一周(2日至8日)调用量已跃升至2.27万亿Token[6] 领先中国模型厂商表现 - 2026年2月16日至22日周榜显示,排名前五的模型中有四款来自中国厂商:MiniMax的M2.5、月之暗面的Kimi K2.5、智谱的GLM-5以及DeepSeek的V3.2,这四款模型合计贡献了Top5总调用量的85.7%[10] - MiniMax的M2.5模型于2月13日发布,上线不足一周便登顶周调用量榜首,在2月9日至15日当周平台总调用量激增的3.21万亿Token中,仅M2.5就贡献了1.44万亿Token增量[10] - 月之暗面的Kimi K2.5模型凭借其多模态架构和强大的Agent并行处理能力(能调度多达100个“Agent分身”),调用量连续跳涨,发布后不到一个月的累计收入已超过其2025年全年总收入[13] - 智谱的GLM-5模型自2月12日发布后,凭借其200K超长上下文窗口和对长程Agent任务的优化,调用量在上线次周便增长至0.8万亿Token[13] 中国模型厂商的市场地位与生态 - 根据a16z与OpenRouter联合发布的报告,过去一年,DeepSeek全系列模型总Token调用量以14.37万亿位居全球第一,阿里千问全系列模型以5.59万亿位居全球第二[13] - 在中国大模型B端市场,2025年下半年,千问(Qwen)系列模型的日均Token调用量占比32.1%位列第一,相较上半年的17.7%几乎翻倍,领先于字节豆包(21.3%)和DeepSeek(18.4%)[14] - 产业形成“AI中国团”的宽广技术产业群落,有利于竞争创新和在中美AI竞争中形成集群优势,硅谷寻求融资的AI初创公司中,其路演核心模型高达80%使用中国的开源模型[15] 中国模型的核心成本优势 - 中国模型具备显著的成本优势,在模型处理输入信息(Input)环节,MiniMax M2.5与智谱GLM-5的价格均为0.3美元每百万Token,而海外对标产品Claude Opus4.6的价格为5美元/百万Token,是中国模型的约16.7倍[16] - 在模型生成内容(Output)环节,成本差异更为悬殊:MiniMax M2.5为1.1美元/百万Token,智谱GLM-5为2.55美元/百万Token,而Claude Opus4.6高达25美元/百万Token,分别是前两者的约22.7倍和9.8倍[16] - 成本优势首先源于算法架构创新,以“混合专家”(MoE)架构为代表的技术路线是大幅降低推理成本的核心原因之一,采用MoE架构可直接让推理时显存占用降低60%,推理吞吐量提升高达19倍[18] 成本优势的深层驱动与产业整合 - 除了算法革新,中国AI厂商通过“垂直整合”路径进一步压缩成本,即将上层的模型算法、中层的云计算基础设施和底层的AI芯片进行深度一体化协同设计与优化,以榨干每一分算力[19] - 以阿里巴巴的“通义-云-芯”体系为例,通过极致的算力调度算法实现对底层硬件资源的最高效利用,从而大幅降低了AI服务背后的基础设施成本[19] - 摩根大通预测,从2025年到2030年,中国Token消耗量的年复合增长率将达到惊人的330%,在短短5年间实现370倍的增长[19] Token性质与商业模式演变 - Token正从互联网时代的“流量”,转变为AI时代的“燃料”,其消耗量的指数级攀升源于用户对AI使用模式的根本性转变,即AI从“问答工具”进化为深度参与工作流的“生产力工具”[21] - 国联民生证券提出“Token通胀”概念,指单位时间内、单位用户的Token消耗结构性上升,归因于三大趋势:需求从“问答”转向“干活”、AI Agent技术的兴起普及、以及推理强度上升[21] - 英伟达CEO黄仁勋强调“计算即收入”、“推理即收入”,指出推理性能直接决定了客户的收入能力,而推理的核心正是高效地生成可被商业化的Token,“性能/瓦特”成为关键指标[22] 未来商业模式展望 - AI服务的商业模式正从过去单纯的“按量计费”,向“燃料+成果”的混合模式演进,一方面Token单价会随技术进步和规模效应下降,另一方面企业将更愿意为直接的“成果”付费,催生更多基于订阅制的商业模式[22] - 未来AI服务的定价将走向高度定制化和灵活化,一个涵盖计算消耗、调用频次、任务复杂度(如多步推理)等多维度的动态定价体系将成为主流[23]