给AI装上手和脚，这账能算平吗？

中国大模型市场格局与调用量变化 - 根据OpenRouter数据，在9号到15号的一周内，中国大模型的调用量达到4.12万亿Token，首次超过美国模型的2.94万亿Token [1] - 调用量前五的模型中，中国占据四席，分别是MiniMax的M2.5、月之暗面的KimiK2.5、智谱GLM-5和DeepSeek V3.2 [1] - 市场出现战略分叉：BAT等公司将模型整合进搜索、电商、办公等现有业务，而Kimi、智谱、MiniMax等新势力则通过大量Agent拓展开发者生态 [1] 调用量激增的驱动因素与用户构成 - 调用量的激增主要源于全球开发者的使用，OpenRouter平台上美国开发者占47.17%，中国开发者仅占6.01% [2] - 驱动因素包括性能提升与成本优势：中国模型在代码编写、搜索等硬核领域表现已可比肩OpenAI和Anthropic的主力产品 [2] - 成本是核心优势：中国模型的调用成本仅为海外巨头的1/10到1/20，例如同样任务，使用Claude需100元，而使用MiniMax可能只需5元 [3] - 具体价格对比：MiniMax M2.5输入0.3美元/百万Token，输出1.1美元；智谱GLM-5输入0.3美元，输出2.55美元；Claude Opus4.6输入5美元，输出25美元 [4] 技术架构与效率优化 - 中国厂商采用混合专家（MoE）架构，根据任务只调用部分专家，实现了工程效率的极致优化 [3] - 阿里云等平台将顶级开源模型打包，推出首月7.9元的订阅，大幅降低了开发者的试错成本 [3] - Kimi K2.5能同时调度100个Agent分身，将复杂任务效率提升3到10倍；智谱GLM-5具备200K超长上下文窗口，适用于长时间任务 [3] Agent场景爆发与Token消耗逻辑转变 - Agent场景的爆发改变了Token消耗逻辑，从Chatbot的线性对话转变为任务执行中的反复推理推演，导致单次任务Token消耗呈指数级上升 [5] - 中信证券测算，智能体执行任务时，整体Token消耗可能提升十倍以上，对应的算力需求需增长百倍以上 [5] - OpenRouter数据显示，超过70%的Token消耗来自互联网大厂、中大型企业及专业程序员的生产环境 [6] - 在100K到1M Token的智能体典型工作流消耗区间，MiniMax M2.5的调用量遥遥领先 [6] 新势力厂商的财务压力与商业模式探索 - 新势力厂商面临严重亏损：智谱三年半亏损62亿元，MiniMax三年零三个季度亏损13.2亿美元（约95亿人民币） [8] - 算力成本占研发开支的70%到80%，形成“越卖越亏”的局面，每赚1元需付出5元多的算力成本 [8] - 行业探索从售卖API转向售卖结果，即Results-as-a-Service（RaaS）的按效果付费模式 [8] - 商业模式转变驱动行为变化：按Token定价促使厂商控制成本，按结果定价则促使厂商追求更高的通过率和转化率 [10] 按效果付费模式的落地场景 - 电商直播：中科深智提供AI直播全托管服务，企业零成本开播，按GMV分成。案例显示，在同等投流ROI下，AI直播GMV可达头部真人主播的40%到50%，同时人力成本节省70%以上 [12][13] - 金融营销：蚂蚁数科推出智能托管模式，银行设定目标后全流程由智能体执行，最终按交易规模增长的千分之二到千分之四收费。区域性银行是该模式的主要采纳者，占合作机构的三分之二 [14] - 工业领域：在设备预测性检修、节能优化等场景尝试按实际节能效果收费，但大额复杂项目因效果难以衡量，仍采用传统模式 [15] 按效果付费模式的挑战与临界点 - 技术成熟度与采购主体变化是模式兴起的两个原因：技术能力提升，且采购方从科技部门转变为直接背负业务KPI的营销、财务等部门 [16] - 核心挑战在于效果归因：企业业务增长是多因素共同作用的结果，目前缺乏统一标准精确量化AI的贡献度，基本只能一事一议 [18] - 实施按效果付费需重构商业逻辑，包括重新包装SKU、设计定价模型和签订合同 [19] - 该模式对厂商现金流构成巨大考验，需要先垫付算力成本，在效果达成后才能收款 [19] 行业成本结构与规模经济拐点 - 存在“杰文斯悖论”现象：过去三年主流模型的单位Token推理成本下降99%以上，但调用量暴涨导致算力总账单持续扩大 [20] - 海豚投研测算，为回本，云厂商需用算力创造1.2万亿美元收入，最终用户需靠AI创造2.4万亿美元经济价值，相当于美国GDP的7.5% [21] - 算力需求逻辑从训练转向推理，更关注单位Token的成本、能效和场景适配度，降低了竞争门槛 [22] - 主要云客户（如微软、亚马逊、谷歌、Meta）在购买标准GPU的同时，也在推进自研或扶持第三方专用推理芯片，2026年四家资本支出合计近7000亿美元 [23] - 中国新玩家积极布局低成本算力，如首都在线为智谱扩增GPU集群，弘信电子提供绿色算力直供，润泽科技支撑字节跳动的万亿级Token吞吐 [24] - 规模经济的拐点取决于“每花1元算力能收回多少钱”的比例何时超过1，当前算力成本占收入比例过高是主要财务风险 [24][26]