AI 沉思录(二):Token 工厂:从堆资源到榨资源的产业趋势
长江证券·2026-07-01 09:07

行业投资评级 - 投资评级为看好,维持 [15] 核心观点 - Token工厂的出现标志着智算产业正从资源竞争进入效率竞争阶段,产业逻辑从“堆资源”向“榨资源”转型 [4][22] - 行业北极星指标发生根本变化,从关注GPU资源多寡转向关注有限资源的Token生产效率,核心指标是token/s或token/任务 [4][22][25] - AI系统软件栈是决定Token工厂资源转化效率的关键,通过调度平台和芯模协同优化来提升GPU利用率与单位Token产出 [8][27][57] - Token定价出现明显分层,由推理成本、能力溢价和竞争策略共同决定,不同层级(基础设施级、专家级、企业级)的定价逻辑不同 [9][64][75][76][77][78] - 市场衍生出两种主流商业模式:聚合平台(通用Token)和垂类行业Token,两者的竞争壁垒和定价逻辑截然不同 [4][10][88][95] 从“堆资源”到“榨资源”的产业趋势转变 - 过去智算中心的核心竞争力是尽可能堆砌GPU资源,但市场最终需要的是带有生产力的Token,仅拥有GPU可能导致巨大资源浪费 [22] - Token工厂是指在AI推理时代,数据中心转型为专门生产AI生成基本单位——Token的工业化设施,其概念由英伟达CEO黄仁勋在2024年提出 [23] - Token工厂的收入公式为Token调用量乘以Token定价,其北极星指标是有限资源的Token生产效率 [25] 1. 提升“榨资源”效率的核心增量在于每家工厂自有的算力调度平台 [27] AI系统软件栈决定资源转化效率 - GPU决定了Token工厂的理论生产能力上限,而AI系统软件栈(调度平台、推理引擎、编译器、模型优化)则决定既定算力能释放多少价值 [8] - 相比传统云主要依赖硬件扩容,Token工厂更强调通过软件持续挖掘存量算力的生产效率,即以更少的GPU、更低的功耗生产更多的Token [8] 调度层面优化 - AI云调度系统是“多维瓶颈系统”,面临GPU碎片化、KV Cache碎片化和Gang Scheduling等独特挑战,其重要性超过传统“资源调度” [28] - 根据TechTarget 2026年3月的统计,AI任务成本管理的核心问题中,23%的参与者选择“并非最优的CPU和GPU利用率”,21%选择“破碎及复杂的成本结构” [33] - 英伟达推出DCGM系统,通过实时采集GPU利用率、显存等关键指标,为调度优化提供数据基础 [37] - CoreWeave将集群效率作为核心竞争力,其数据显示行业大模型训练集群的Model FLOPs Utilization通常仅为35%-45% [40] - 在特定实验条件下,CoreWeave平台的MFU较行业基准有显著提升,例如针对30B模型,较Aleph Alpha基准提升28%,较MosaicML基准提升18% [44] - 阿里巴巴与北大合作提出GPU池化系统Aegaeon,实现Token级别的自动扩缩容调度,与ServerlessLLM等系统相比,能支撑2-2.5倍的请求到达率,有效吞吐量提升1.5到9倍 [45][53] 芯模协同优化 - 芯模协同通过芯片架构、编译器、推理框架与模型结构的联合优化,成为提升Token产出效率的重要方向 [57] - 2026年阿里云发布基于自研AI芯片真武M890的磐久AL128超节点服务器,其性能是真武810E的3倍,片间互联带宽达800GB/s [58] - 阿里云百炼推理平台通过并池调度、上下文缓存、吞吐弹性调度等机制实现资源高效利用与极致弹性 [59] - DeepSeek-V4发布当日,华为昇腾、寒武纪等8家国产芯片宣布实现Day0同步适配,体现国产芯模生态绑定加速 [61] Token定价逻辑与市场分层 - Token定价本质上由推理成本、能力溢价和竞争策略共同决定,不同层级Token的主导因素存在显著差异 [9][75] - 基础模型定价持续通缩,Epoch AI 2025年研究显示,达到相同能力水平的大模型推理成本正以每年9-900倍的速度下降 [64] - 2026年研究论文提出“Tiered Super-Moore‘s Law”,指出Token价格呈现明显分层:经济型和中端模型价格以1.10年和1.55年的半衰期快速下降,而旗舰模型基本不遵循降价规律 [67][68] - 观察OpenAI和Anthropic的定价,其旗舰模型(如Claude Opus)价格趋势基本为“能力提升,价格稳定” [70][73] 不同层级的定价逻辑 - 基础设施级Token:模型能力趋于同质化,市场竞争激烈,定价主要围绕推理成本展开,价格向边际成本收敛 [9][76] - 专家级Token:用户根据任务复杂度选择模型,定价逻辑为“推理成本+能力溢价”,推理能力、专业能力和品牌影响力强的模型能获得更高定价 [9][77] - 企业级Token:AI使用模式从增强走向自动化,企业购买的核心是任务完成能力和业务价值,定价逻辑进一步向任务价值迁移 [78][81] 企业行为变化推动定价转向 - Anthropic研究指出,企业侧的AI使用模式正从辅助模式向自动化模式迁移,自动化模式占比由V1阶段的41.1%提升至V3阶段的49.1%,超过辅助模式 [82][84] - 在自动化模式下,企业更关注任务完成率、人工替代程度和最终ROI,Token是中间投入,这使得高端模型的定价锚从成本和能力转向任务价值 [87] Token工厂的商业模式与核心竞争力 聚合平台模式(通用Token) - 聚合平台模式可比喻为“大模型界的App Store”,自身不训练大模型,而是整合全球各大厂商的AI模型API,提供一站式调用服务 [10][88] - 代表案例OpenRouter:为开发者提供400+大模型调用,省去逐一注册的麻烦 [88] - 收入侧:主要来源为模型收入和手续费收入,在官方原价基础上额外收取约5% - 5.5%的服务费,其年化收入从2025年10月的1000万美元出头飙升至2026年4月的超5000万美元 [92] - 成本侧:主要包括模型API采购成本、网络与带宽成本、基础设施成本以及持续的研发投入 [92] - 国内案例:硅基流动平台可调用100+主流模型 [94] - 该商业模式本质是“开源节流”,售卖通用Token,市场竞争激烈,壁垒在于规模优势和全栈软件优势 [94] 垂类行业Token模式 - 拥有特定行业Know-how的软件公司将行业数据和知识封装进Token,生产具备行业生产力的垂类Token,以获得更大利润空间 [10][95] - 技术路径包括:领域继续预训练/指令微调、检索增强生成、Agent工具调用与工作流编排 [96] - 垂类行业Token的定价逻辑可能从“成本定价”演变为按所能解决的任务价值进行“价值定价”,在专业性强、有数据壁垒的行业中定价天花板高 [97] - 将数据封装进模型具备高壁垒,需要完成获取、清洗、标准化、打标签、建模等全流程数据基建 [99] 不同玩家角色与运营商入局 - 大厂的MaaS平台与Token工厂有相似性,但MaaS是品牌方(如阿里、智谱),拥有模型能力;Token工厂更多是基础设施,解决“如何高效生产Token”的问题 [103] - 中国电信、中国移动、中国联通等运营商近期入局Token算力服务,推出Token套餐产品,例如中国电信个人版最低9.9元/月含1000万Tokens [107] - 运营商入局是Token工厂商业化的重要标志,意味着AI产业链将从“算力租赁”演进为“Token生产—Token运营—Token消费”的新商业模式,Token成为标准计费单位 [108]

AI 沉思录(二):Token 工厂:从堆资源到榨资源的产业趋势 - Reportify