谁在消耗5万亿模型算力?
经济观察报·2026-03-08 11:49

中国大模型调用量跃升与产业重心转移 - 2026年2月第二周,中国大模型在OpenRouter平台的单周调用量达到5.16万亿Token,三周内增长127%,历史上首次超越美国模型的2.94万亿Token [2] - 尽管平台用户中美国占47.17%,中国仅占6.01%,但该数据表明海外开发者对中国模型的使用意愿快速上升,标志着人工智能产业重心正从比拼训练成本转向高频、常态化的应用推理阶段 [2][3] - 当周全球大模型调用量排名前五中,中国模型(MiniMax M2.5、月之暗面Kimi K2.5、智谱GLM-5与深度求索DeepSeek V3.2)占据四席 [2] 五万亿Token流向与应用模式变革 - Token消耗激增源于AI应用模式从“问答式”向“智能体(Agent)”模式切换,后者需在后台持续执行多步骤任务并携带完整对话历史,导致单次会话Token吞吐量呈几何级数增长 [6] - 根据《2025 AI使用报告》,OpenRouter平台处理的编程任务Token占比从2025年初的11%增至50%以上,成为最大单一使用品类 [6] - 多模态应用落地进一步推高消耗,例如Seedance 2.0视频模型生成一条10秒、1080p视频约消耗35万Token,是传统文本问答的数百倍 [7] - 数万亿Token调用主要由高频、规模化、可持续付费的商业应用支撑,买单领域集中在互联网、金融、跨境电商与娱乐行业 [8] 国产大模型承接需求的技术与成本优势 - 国产模型如MiniMax M2.5、Kimi K2.5普遍采用混合专家(MoE)架构,相比传统稠密模型,推理时显存占用降低约60%,吞吐量显著提升 [9] - MoE架构通过按需激活部分参数,在保持巨量参数的同时大幅降低单次推理所需有效算力 [10] - 中国模型具备显著成本优势:输入价格约为0.3美元/百万Token,而部分海外同类产品价格在5美元左右;中国西部算力节点电力成本约每度0.2元至0.3元,欧美地区则在1元至1.5元之间 [10] - 成本优势与需求爆发推动国产大模型厂商告别价格战,开始获得实打实业务收入,例如智谱AI宣布上调API调用价格,部分涨幅达30%至100%;月之暗面Kimi K2.5发布不到一个月,海外收入便超过国内收入 [12] 算力采购标准转向与国产芯片机遇 - 算力市场核心指标从抢夺计算卡转向核算单位产出成本,企业开始计算每投入一元钱能换取多少吞吐量,每消耗一瓦电能处理多少Token [14] - 行业进入推理阶段后,需求更聚焦能耗、稳定性和供应安全,这为国产AI芯片提供了切入窗口 [14] - 2026年推理型AI服务器在整体出货结构中的比重有望提升至44%,较2025年上升3个百分点 [15] - 推理型服务器对高端封装和高带宽内存的严苛要求有所下调,有利于中国本土企业在HBM受限情况下发展中等规模算力的推理芯片 [16] 国产算力基础设施升级与商业落地 - 企业智算中心预算投入结构改变,从集中于高端训练GPU集群转向更多采用推理优化型GPU、国产AI芯片或异构算力组合,软件平台、算力调度等占比提升 [17] - 行业进入系统级工程交付阶段,万卡集群的网络通信和散热能力比单卡“跑分”更具决定性 [17] - 国家超算互联网郑州核心节点部署了3套中科曙光提供的scaleX万卡超集群,最大可提供超3万张国产加速卡算力,是全国首个实际运营的3万卡国产AI算力池,验证了国产算力基础设施的工程化能力 [18] - 该算力系统已完成千款应用适配,超70%的国产新能源汽车在该平台进行流体和碰撞仿真实验 [19] 国产AI芯片厂商业绩与市场渗透 - 下游应用爆发倒逼上游基建升级,转化为国产芯片厂商业务收入,例如在中国移动总价值超50亿元的AI服务器集采中,华为昇腾系厂商斩获34亿元份额 [20] - 国产算力厂商业绩实现爆发性增长:寒武纪2025年营收增长453.21%至64.97亿元,实现上市以来首次年度盈利;摩尔线程、沐曦股份、海光信息2025年度业绩亦大幅提升 [20] - 根据伯恩斯坦报告,中国本土AI芯片品牌市场渗透率已从2024年的约29%提升至2025年的42%,国产算力正完成从边缘备选向市场首选的跨越 [21]