Token 工厂 - 财报，业绩电话会，研报，新闻

Token 工厂

搜索文档

长江证券· 2026-06-29 11:23

报告投资评级 - 行业投资评级：看好，维持 [11] 报告核心观点 - **Token工厂成为新一代AI基础设施**：智算产业正从资源竞争（堆GPU）进入效率竞争（榨Token）阶段 [6][17] Token工厂以Token吞吐量为核心产出指标，运营目标是将电力、GPU、网络和模型高效转化为持续输出的Token流，并最终转化为智能服务和收入 [2][7] - **行业竞争焦点发生转变**：竞争逻辑正从“拥有多少GPU”转向“如何让GPU生产更多Token” [2][7] 行业北极星指标从GPU资源的堆砌，转变为有限资源的Token生产效率（如token/s或token/任务） [17][20] - **AI系统软件栈决定效率**：在GPU标准化背景下，覆盖调度平台、推理引擎、编译器和模型优化在内的AI系统软件栈，是决定既定算力资源能释放多少价值的关键 [8] 其核心在于通过软件持续挖掘存量算力的生产效率，即以更少的GPU、更低的功耗生产更多的Token [8] 根据目录分别总结 Token工厂的定义与重要性 - **定义**：Token工厂是指在AI推理时代，数据中心从传统的“数据存储仓库”转型为专门生产AI生成基本单位——Token（词元）的工业化生产设施 [6][18] - **收入模型**：Token工厂的收入公式为Token调用量乘以Token定价 [20] Token吞吐量直接决定了AI工厂的收入能力和资本回报率（ROI） [2][7] - **产业地位**：Token工厂是一种介于单纯算力提供方和下游实体企业中间的角色，与云计算产业链地位相近 [18] 提升效率的核心路径：调度优化 - **调度系统重要性凸显**：AI云调度是“多维瓶颈系统”，面临GPU碎片化、KV Cache碎片化和Gang Scheduling等独特挑战，其重要性超过了主要优化CPU利用率的传统云 [23] - **行业实践与效率差距**：根据TechTarget 2026年3月的行业统计，选择管理AI任务成本时，23%的参与者面临“并非最优的CPU和GPU利用率”问题，21%面临“破碎及复杂的成本结构”问题 [26] CoreWeave指出，行业大模型训练集群的Model FLOPs Utilization（MFU）通常仅为35%-45%，与100%的理论值存在较大效率差距 [33] - **先进调度方案案例**： - **英伟达DCGM**：通过实时采集GPU利用率、HBM显存等关键指标，解决GPU集群“看不见”的问题，为资源优化提供决策依据 [31] - **CoreWeave集群调度**：通过拓扑感知调度、自动节点管理等系统级优化提升MFU。在特定实验条件下，其MFU较行业基准有显著提升，例如在128 H100s上运行30B模型时，MFU较基准提升28%至51.9% [33][37] - **阿里云Aegaeon系统**：采用token级别的自动扩缩容技术，将LLM推理从“按请求分配GPU”升级为“按token在多模型之间动态共享GPU”。论文数据显示，与ServerlessLLM等系统相比，Aegaeon能支撑2-2.5倍的请求到达率，有效吞吐量（goodput）提升1.5到9倍 [38][45] 提升效率的核心路径：芯模协同 - **芯模协同成为重要方向**：随着大模型规模化部署，模型架构、编译器、推理引擎与芯片之间的协同优化正成为新的性能突破口，旨在提高单位算力的Token产出效率和单位功耗性能 [48] - **行业实践案例**： - **阿里云全链路升级**：2026年6月，阿里云发布基于自研AI芯片真武M890的磐久AL128超节点服务器，其P2P时延低于150ns，性能是真武810E的3倍，片间互联带宽达800GB/s [51] 同时，百炼推理平台通过并池调度、上下文缓存、吞吐弹性调度等机制实现资源高效利用与极致弹性 [52] - **DeepSeek与国产芯片生态绑定**：DeepSeek-V4发布当日，华为昇腾、寒武纪等8家国产芯片厂商宣布实现Day0同步适配，体现了模型厂商与芯片厂商的深度生态绑定路径 [54]

Software and Services

Software and Services

Token