2月井喷，中国AI调用量首超美国，四款大模型霸榜全球前五，国产算力需求正经历指数级增长

全球AI模型调用量格局剧变 - 2026年2月9日至15日当周，中国AI模型以4.12万亿Token的调用量首次超过美国模型的2.94万亿Token，实现历史性赶超[1][6][7] - 随后一周（2月16日至22日），中国模型调用量进一步冲高至5.16万亿Token，三周内大涨127%，而同期美国模型调用量则跌至2.7万亿Token[1][7] - 全球调用量排名前五的模型中，中国模型占据四席，显示增长动能来自厂商集群式崛起，而非单一爆款产品[1][7] 中国市场增长轨迹 - 全球大模型Token调用量在过去一年（2025年3月3日至9日至2026年2月中旬）经历了爆发式增长，平台前十大模型的周调用量从1.24万亿Token飙升至13.95万亿Token，增长超过10倍[6] - 2025年，美国模型是市场主要动力，其Token周调用量一度占据平台前十大模型总量的近七成，而中国模型占比不到两成[6] - 进入2026年，美国模型增速显露疲态，中国模型开启“狂飙”模式，2月第一周（2日至8日）调用量已跃升至2.27万亿Token[6] 领先中国模型厂商表现 - 2026年2月16日至22日周榜显示，排名前五的模型中有四款来自中国厂商：MiniMax的M2.5、月之暗面的Kimi K2.5、智谱的GLM-5以及DeepSeek的V3.2，这四款模型合计贡献了Top5总调用量的85.7%[10] - MiniMax的M2.5模型于2月13日发布，上线不足一周便登顶周调用量榜首，在2月9日至15日当周平台总调用量激增的3.21万亿Token中，仅M2.5就贡献了1.44万亿Token增量[10] - 月之暗面的Kimi K2.5模型凭借其多模态架构和强大的Agent并行处理能力（能调度多达100个“Agent分身”），调用量连续跳涨，发布后不到一个月的累计收入已超过其2025年全年总收入[13] - 智谱的GLM-5模型自2月12日发布后，凭借其200K超长上下文窗口和对长程Agent任务的优化，调用量在上线次周便增长至0.8万亿Token[13] 中国模型厂商的市场地位与生态 - 根据a16z与OpenRouter联合发布的报告，过去一年，DeepSeek全系列模型总Token调用量以14.37万亿位居全球第一，阿里千问全系列模型以5.59万亿位居全球第二[13] - 在中国大模型B端市场，2025年下半年，千问（Qwen）系列模型的日均Token调用量占比32.1%位列第一，相较上半年的17.7%几乎翻倍，领先于字节豆包（21.3%）和DeepSeek（18.4%）[14] - 产业形成“AI中国团”的宽广技术产业群落，有利于竞争创新和在中美AI竞争中形成集群优势，硅谷寻求融资的AI初创公司中，其路演核心模型高达80%使用中国的开源模型[15] 中国模型的核心成本优势 - 中国模型具备显著的成本优势，在模型处理输入信息（Input）环节，MiniMax M2.5与智谱GLM-5的价格均为0.3美元每百万Token，而海外对标产品Claude Opus4.6的价格为5美元/百万Token，是中国模型的约16.7倍[16] - 在模型生成内容（Output）环节，成本差异更为悬殊：MiniMax M2.5为1.1美元/百万Token，智谱GLM-5为2.55美元/百万Token，而Claude Opus4.6高达25美元/百万Token，分别是前两者的约22.7倍和9.8倍[16] - 成本优势首先源于算法架构创新，以“混合专家”（MoE）架构为代表的技术路线是大幅降低推理成本的核心原因之一，采用MoE架构可直接让推理时显存占用降低60%，推理吞吐量提升高达19倍[18] 成本优势的深层驱动与产业整合 - 除了算法革新，中国AI厂商通过“垂直整合”路径进一步压缩成本，即将上层的模型算法、中层的云计算基础设施和底层的AI芯片进行深度一体化协同设计与优化，以榨干每一分算力[19] - 以阿里巴巴的“通义-云-芯”体系为例，通过极致的算力调度算法实现对底层硬件资源的最高效利用，从而大幅降低了AI服务背后的基础设施成本[19] - 摩根大通预测，从2025年到2030年，中国Token消耗量的年复合增长率将达到惊人的330%，在短短5年间实现370倍的增长[19] Token性质与商业模式演变 - Token正从互联网时代的“流量”，转变为AI时代的“燃料”，其消耗量的指数级攀升源于用户对AI使用模式的根本性转变，即AI从“问答工具”进化为深度参与工作流的“生产力工具”[21] - 国联民生证券提出“Token通胀”概念，指单位时间内、单位用户的Token消耗结构性上升，归因于三大趋势：需求从“问答”转向“干活”、AI Agent技术的兴起普及、以及推理强度上升[21] - 英伟达CEO黄仁勋强调“计算即收入”、“推理即收入”，指出推理性能直接决定了客户的收入能力，而推理的核心正是高效地生成可被商业化的Token，“性能/瓦特”成为关键指标[22] 未来商业模式展望 - AI服务的商业模式正从过去单纯的“按量计费”，向“燃料+成果”的混合模式演进，一方面Token单价会随技术进步和规模效应下降，另一方面企业将更愿意为直接的“成果”付费，催生更多基于订阅制的商业模式[22] - 未来AI服务的定价将走向高度定制化和灵活化，一个涵盖计算消耗、调用频次、任务复杂度（如多步推理）等多维度的动态定价体系将成为主流[23]