AI 沉思录（二）：Token 工厂：从堆资源到榨资源的产业趋势

行业投资评级 - 投资评级为看好，维持 [15] 核心观点 - Token工厂的出现标志着智算产业正从资源竞争进入效率竞争阶段，产业逻辑从“堆资源”向“榨资源”转型 [4][22] - 行业北极星指标发生根本变化，从关注GPU资源多寡转向关注有限资源的Token生产效率，核心指标是token/s或token/任务 [4][22][25] - AI系统软件栈是决定Token工厂资源转化效率的关键，通过调度平台和芯模协同优化来提升GPU利用率与单位Token产出 [8][27][57] - Token定价出现明显分层，由推理成本、能力溢价和竞争策略共同决定，不同层级（基础设施级、专家级、企业级）的定价逻辑不同 [9][64][75][76][77][78] - 市场衍生出两种主流商业模式：聚合平台（通用Token）和垂类行业Token，两者的竞争壁垒和定价逻辑截然不同 [4][10][88][95] 从“堆资源”到“榨资源”的产业趋势转变 - 过去智算中心的核心竞争力是尽可能堆砌GPU资源，但市场最终需要的是带有生产力的Token，仅拥有GPU可能导致巨大资源浪费 [22] - Token工厂是指在AI推理时代，数据中心转型为专门生产AI生成基本单位——Token的工业化设施，其概念由英伟达CEO黄仁勋在2024年提出 [23] - Token工厂的收入公式为Token调用量乘以Token定价，其北极星指标是有限资源的Token生产效率 [25] 1. 提升“榨资源”效率的核心增量在于每家工厂自有的算力调度平台 [27] AI系统软件栈决定资源转化效率 - GPU决定了Token工厂的理论生产能力上限，而AI系统软件栈（调度平台、推理引擎、编译器、模型优化）则决定既定算力能释放多少价值 [8] - 相比传统云主要依赖硬件扩容，Token工厂更强调通过软件持续挖掘存量算力的生产效率，即以更少的GPU、更低的功耗生产更多的Token [8] 调度层面优化 - AI云调度系统是“多维瓶颈系统”，面临GPU碎片化、KV Cache碎片化和Gang Scheduling等独特挑战，其重要性超过传统“资源调度” [28] - 根据TechTarget 2026年3月的统计，AI任务成本管理的核心问题中，23%的参与者选择“并非最优的CPU和GPU利用率”，21%选择“破碎及复杂的成本结构” [33] - 英伟达推出DCGM系统，通过实时采集GPU利用率、显存等关键指标，为调度优化提供数据基础 [37] - CoreWeave将集群效率作为核心竞争力，其数据显示行业大模型训练集群的Model FLOPs Utilization通常仅为35%-45% [40] - 在特定实验条件下，CoreWeave平台的MFU较行业基准有显著提升，例如针对30B模型，较Aleph Alpha基准提升28%，较MosaicML基准提升18% [44] - 阿里巴巴与北大合作提出GPU池化系统Aegaeon，实现Token级别的自动扩缩容调度，与ServerlessLLM等系统相比，能支撑2-2.5倍的请求到达率，有效吞吐量提升1.5到9倍 [45][53] 芯模协同优化 - 芯模协同通过芯片架构、编译器、推理框架与模型结构的联合优化，成为提升Token产出效率的重要方向 [57] - 2026年阿里云发布基于自研AI芯片真武M890的磐久AL128超节点服务器，其性能是真武810E的3倍，片间互联带宽达800GB/s [58] - 阿里云百炼推理平台通过并池调度、上下文缓存、吞吐弹性调度等机制实现资源高效利用与极致弹性 [59] - DeepSeek-V4发布当日，华为昇腾、寒武纪等8家国产芯片宣布实现Day0同步适配，体现国产芯模生态绑定加速 [61] Token定价逻辑与市场分层 - Token定价本质上由推理成本、能力溢价和竞争策略共同决定，不同层级Token的主导因素存在显著差异 [9][75] - 基础模型定价持续通缩，Epoch AI 2025年研究显示，达到相同能力水平的大模型推理成本正以每年9-900倍的速度下降 [64] - 2026年研究论文提出“Tiered Super-Moore‘s Law”，指出Token价格呈现明显分层：经济型和中端模型价格以1.10年和1.55年的半衰期快速下降，而旗舰模型基本不遵循降价规律 [67][68] - 观察OpenAI和Anthropic的定价，其旗舰模型（如Claude Opus）价格趋势基本为“能力提升，价格稳定” [70][73] 不同层级的定价逻辑 - 基础设施级Token：模型能力趋于同质化，市场竞争激烈，定价主要围绕推理成本展开，价格向边际成本收敛 [9][76] - 专家级Token：用户根据任务复杂度选择模型，定价逻辑为“推理成本+能力溢价”，推理能力、专业能力和品牌影响力强的模型能获得更高定价 [9][77] - 企业级Token：AI使用模式从增强走向自动化，企业购买的核心是任务完成能力和业务价值，定价逻辑进一步向任务价值迁移 [78][81] 企业行为变化推动定价转向 - Anthropic研究指出，企业侧的AI使用模式正从辅助模式向自动化模式迁移，自动化模式占比由V1阶段的41.1%提升至V3阶段的49.1%，超过辅助模式 [82][84] - 在自动化模式下，企业更关注任务完成率、人工替代程度和最终ROI，Token是中间投入，这使得高端模型的定价锚从成本和能力转向任务价值 [87] Token工厂的商业模式与核心竞争力聚合平台模式（通用Token） - 聚合平台模式可比喻为“大模型界的App Store”，自身不训练大模型，而是整合全球各大厂商的AI模型API，提供一站式调用服务 [10][88] - 代表案例OpenRouter：为开发者提供400+大模型调用，省去逐一注册的麻烦 [88] - 收入侧：主要来源为模型收入和手续费收入，在官方原价基础上额外收取约5% - 5.5%的服务费，其年化收入从2025年10月的1000万美元出头飙升至2026年4月的超5000万美元 [92] - 成本侧：主要包括模型API采购成本、网络与带宽成本、基础设施成本以及持续的研发投入 [92] - 国内案例：硅基流动平台可调用100+主流模型 [94] - 该商业模式本质是“开源节流”，售卖通用Token，市场竞争激烈，壁垒在于规模优势和全栈软件优势 [94] 垂类行业Token模式 - 拥有特定行业Know-how的软件公司将行业数据和知识封装进Token，生产具备行业生产力的垂类Token，以获得更大利润空间 [10][95] - 技术路径包括：领域继续预训练/指令微调、检索增强生成、Agent工具调用与工作流编排 [96] - 垂类行业Token的定价逻辑可能从“成本定价”演变为按所能解决的任务价值进行“价值定价”，在专业性强、有数据壁垒的行业中定价天花板高 [97] - 将数据封装进模型具备高壁垒，需要完成获取、清洗、标准化、打标签、建模等全流程数据基建 [99] 不同玩家角色与运营商入局 - 大厂的MaaS平台与Token工厂有相似性，但MaaS是品牌方（如阿里、智谱），拥有模型能力；Token工厂更多是基础设施，解决“如何高效生产Token”的问题 [103] - 中国电信、中国移动、中国联通等运营商近期入局Token算力服务，推出Token套餐产品，例如中国电信个人版最低9.9元/月含1000万Tokens [107] - 运营商入局是Token工厂商业化的重要标志，意味着AI产业链将从“算力租赁”演进为“Token生产—Token运营—Token消费”的新商业模式，Token成为标准计费单位 [108]