中国AI调用量首超美国四款大模型霸榜全球前五

全球AI模型调用量格局剧变 - 2026年2月9日至15日当周，中国AI模型以4.12万亿Token的调用量首次超越美国模型的2.94万亿Token，实现历史性赶超[1][7] - 随后一周（2月16日至22日），中国模型调用量进一步冲高至5.16万亿Token，三周内大涨127%，同期美国模型调用量则降至2.7万亿Token[1][7] - 在全球最大的AI模型API聚合平台OpenRouter上，全球大模型Token周调用量在不到一年内增长超过10倍，从2025年3月初的1.24万亿Token飙升至2026年2月中旬的13.95万亿Token[6] 中国AI厂商集群式崛起 - 2026年2月16日至22日当周，全球调用量排名前五的模型中，中国模型占据四席，分别为MiniMax的M2.5、月之暗面的Kimi K2.5、智谱的GLM-5以及DeepSeek的V3.2[1][10] - 这四款中国模型合计贡献了Top5总调用量的85.7%[10] - 中国模型的爆发式增长并非依赖单一产品，而是厂商集群式崛起的结果，形成了宽广的技术产业群落[1][7][15] 领先模型表现与市场动态 - MiniMax的M2.5模型于2026年2月13日发布，上线不足一周便登顶周调用量榜首，其在2月9日至15日当周贡献了平台总增量3.21万亿Token中的1.44万亿Token[10] - 月之暗面的Kimi K2.5模型发布后，其不到一个月的累计收入已超过2025年全年总收入，增长由全球付费用户及API调用量大涨推动[13] - 智谱的GLM-5模型自2月12日发布后，调用量在上线次周便增长至0.8万亿Token[13] - 根据a16z与OpenRouter的报告，过去一年DeepSeek全系列模型总Token调用量以14.37万亿位居全球第一，阿里千问全系列以5.59万亿位居第二[13] - 在中国大模型B端市场，2025年下半年千问系列模型的日均Token调用量占比为32.1%，相比上半年的17.7%几乎翻倍，领先于字节豆包（21.3%）和DeepSeek（18.4%）[14] 中国模型的核心竞争力：极致成本优势 - 中国模型在性能比肩国际顶尖模型的同时，具备极具竞争力的成本优势[15] - 在处理输入信息环节，MiniMax M2.5与智谱GLM-5的价格均为0.3美元/百万Token，而海外对标产品Claude Opus4.6的价格为5美元/百万Token，是中国模型的约16.7倍[15] - 在生成内容环节，成本差异更悬殊：MiniMax M2.5输出价格为1.1美元/百万Token，智谱GLM-5为2.55美元/百万Token，而Claude Opus4.6高达25美元/百万Token，分别是前两者的约22.7倍和9.8倍[16] 成本优势的技术根源 - 以“混合专家”架构为代表的技术路线是中国模型大幅降低推理成本的核心原因之一，DeepSeek、阿里巴巴通义千问3.5-Plus等模型已广泛采用此架构[18] - MoE架构通过“按需激活”专家网络，相较于传统稠密模型，可降低推理时显存占用60%，并将推理吞吐量提升高达19倍[18] - 中国AI厂商积极探索“垂直整合”路径，将模型算法、云计算基础设施和AI芯片进行一体化协同设计与优化，以极致算力调度实现最高效的硬件资源利用，进一步压缩成本[19] AI应用范式转变与Token价值重估 - AI角色正从“问答工具”进化为深度参与工作流的“生产力工具”，驱动Token消耗量指数级攀升[19] - “Token通胀”概念被提出，指单位时间内、单位用户的Token消耗结构性上升，归因于三大趋势：需求从“问答”转向“干活”、AI Agent技术普及、以及推理强度上升[20] - Token正从互联网时代的“流量”转变为AI时代执行生产任务必不可少的“燃料”[20] - 摩根大通预测，从2025年到2030年，中国Token消耗量的年复合增长率将达到330%，在5年间实现370倍的增长[19] 行业商业模式与未来展望 - AI服务的商业模式正从“按量计费”向“燃料+成果”的混合模式演进，企业将更愿意为直接的“成果”付费，催生更多基于订阅制的商业模式[21] - 未来AI服务定价将走向高度定制化和灵活化，计算消耗、调用频次、任务复杂度等多维度因素将构成动态定价体系[22] - 英伟达CEO强调“计算即收入”“推理即收入”，指出推理性能直接决定客户收入能力，而“性能/瓦特”成为衡量AI服务效率与收入能力的关键指标[21] - 硅谷寻求融资的AI初创公司中，其路演核心模型高达80%使用中国的开源模型，显示了中国模型在全球开发者中的广泛吸引力[15]