谁在消耗5万亿模型算力？

中国大模型调用量跃升与产业重心转移 - 2026年2月第二周，中国大模型在OpenRouter平台的单周调用量达到5.16万亿Token，三周内增长127%，历史上首次超越美国模型的2.94万亿Token [2] - 尽管平台用户中美国占47.17%，中国仅占6.01%，但该数据表明海外开发者对中国模型的使用意愿快速上升，标志着人工智能产业重心正从比拼训练成本转向高频、常态化的应用推理阶段 [2][3] - 当周全球大模型调用量排名前五中，中国模型（MiniMax M2.5、月之暗面Kimi K2.5、智谱GLM-5与深度求索DeepSeek V3.2）占据四席 [2] 五万亿Token流向与应用模式变革 - Token消耗激增源于AI应用模式从“问答式”向“智能体（Agent）”模式切换，后者需在后台持续执行多步骤任务并携带完整对话历史，导致单次会话Token吞吐量呈几何级数增长 [6] - 根据《2025 AI使用报告》，OpenRouter平台处理的编程任务Token占比从2025年初的11%增至50%以上，成为最大单一使用品类 [6] - 多模态应用落地进一步推高消耗，例如Seedance 2.0视频模型生成一条10秒、1080p视频约消耗35万Token，是传统文本问答的数百倍 [7] - 数万亿Token调用主要由高频、规模化、可持续付费的商业应用支撑，买单领域集中在互联网、金融、跨境电商与娱乐行业 [8] 国产大模型承接需求的技术与成本优势 - 国产模型如MiniMax M2.5、Kimi K2.5普遍采用混合专家（MoE）架构，相比传统稠密模型，推理时显存占用降低约60%，吞吐量显著提升 [9] - MoE架构通过按需激活部分参数，在保持巨量参数的同时大幅降低单次推理所需有效算力 [10] - 中国模型具备显著成本优势：输入价格约为0.3美元/百万Token，而部分海外同类产品价格在5美元左右；中国西部算力节点电力成本约每度0.2元至0.3元，欧美地区则在1元至1.5元之间 [10] - 成本优势与需求爆发推动国产大模型厂商告别价格战，开始获得实打实业务收入，例如智谱AI宣布上调API调用价格，部分涨幅达30%至100%；月之暗面Kimi K2.5发布不到一个月，海外收入便超过国内收入 [12] 算力采购标准转向与国产芯片机遇 - 算力市场核心指标从抢夺计算卡转向核算单位产出成本，企业开始计算每投入一元钱能换取多少吞吐量，每消耗一瓦电能处理多少Token [14] - 行业进入推理阶段后，需求更聚焦能耗、稳定性和供应安全，这为国产AI芯片提供了切入窗口 [14] - 2026年推理型AI服务器在整体出货结构中的比重有望提升至44%，较2025年上升3个百分点 [15] - 推理型服务器对高端封装和高带宽内存的严苛要求有所下调，有利于中国本土企业在HBM受限情况下发展中等规模算力的推理芯片 [16] 国产算力基础设施升级与商业落地 - 企业智算中心预算投入结构改变，从集中于高端训练GPU集群转向更多采用推理优化型GPU、国产AI芯片或异构算力组合，软件平台、算力调度等占比提升 [17] - 行业进入系统级工程交付阶段，万卡集群的网络通信和散热能力比单卡“跑分”更具决定性 [17] - 国家超算互联网郑州核心节点部署了3套中科曙光提供的scaleX万卡超集群，最大可提供超3万张国产加速卡算力，是全国首个实际运营的3万卡国产AI算力池，验证了国产算力基础设施的工程化能力 [18] - 该算力系统已完成千款应用适配，超70%的国产新能源汽车在该平台进行流体和碰撞仿真实验 [19] 国产AI芯片厂商业绩与市场渗透 - 下游应用爆发倒逼上游基建升级，转化为国产芯片厂商业务收入，例如在中国移动总价值超50亿元的AI服务器集采中，华为昇腾系厂商斩获34亿元份额 [20] - 国产算力厂商业绩实现爆发性增长：寒武纪2025年营收增长453.21%至64.97亿元，实现上市以来首次年度盈利；摩尔线程、沐曦股份、海光信息2025年度业绩亦大幅提升 [20] - 根据伯恩斯坦报告，中国本土AI芯片品牌市场渗透率已从2024年的约29%提升至2025年的42%，国产算力正完成从边缘备选向市场首选的跨越 [21]