Workflow
Token 工厂
icon
搜索文档
Token工厂:从堆GPU到榨Token
长江证券· 2026-06-29 11:23
报告投资评级 - 行业投资评级:看好,维持 [11] 报告核心观点 - **Token工厂成为新一代AI基础设施**:智算产业正从资源竞争(堆GPU)进入效率竞争(榨Token)阶段 [6][17] Token工厂以Token吞吐量为核心产出指标,运营目标是将电力、GPU、网络和模型高效转化为持续输出的Token流,并最终转化为智能服务和收入 [2][7] - **行业竞争焦点发生转变**:竞争逻辑正从“拥有多少GPU”转向“如何让GPU生产更多Token” [2][7] 行业北极星指标从GPU资源的堆砌,转变为有限资源的Token生产效率(如token/s或token/任务) [17][20] - **AI系统软件栈决定效率**:在GPU标准化背景下,覆盖调度平台、推理引擎、编译器和模型优化在内的AI系统软件栈,是决定既定算力资源能释放多少价值的关键 [8] 其核心在于通过软件持续挖掘存量算力的生产效率,即以更少的GPU、更低的功耗生产更多的Token [8] 根据目录分别总结 Token工厂的定义与重要性 - **定义**:Token工厂是指在AI推理时代,数据中心从传统的“数据存储仓库”转型为专门生产AI生成基本单位——Token(词元)的工业化生产设施 [6][18] - **收入模型**:Token工厂的收入公式为Token调用量乘以Token定价 [20] Token吞吐量直接决定了AI工厂的收入能力和资本回报率(ROI) [2][7] - **产业地位**:Token工厂是一种介于单纯算力提供方和下游实体企业中间的角色,与云计算产业链地位相近 [18] 提升效率的核心路径:调度优化 - **调度系统重要性凸显**:AI云调度是“多维瓶颈系统”,面临GPU碎片化、KV Cache碎片化和Gang Scheduling等独特挑战,其重要性超过了主要优化CPU利用率的传统云 [23] - **行业实践与效率差距**:根据TechTarget 2026年3月的行业统计,选择管理AI任务成本时,23%的参与者面临“并非最优的CPU和GPU利用率”问题,21%面临“破碎及复杂的成本结构”问题 [26] CoreWeave指出,行业大模型训练集群的Model FLOPs Utilization(MFU)通常仅为35%-45%,与100%的理论值存在较大效率差距 [33] - **先进调度方案案例**: - **英伟达DCGM**:通过实时采集GPU利用率、HBM显存等关键指标,解决GPU集群“看不见”的问题,为资源优化提供决策依据 [31] - **CoreWeave集群调度**:通过拓扑感知调度、自动节点管理等系统级优化提升MFU。在特定实验条件下,其MFU较行业基准有显著提升,例如在128 H100s上运行30B模型时,MFU较基准提升28%至51.9% [33][37] - **阿里云Aegaeon系统**:采用token级别的自动扩缩容技术,将LLM推理从“按请求分配GPU”升级为“按token在多模型之间动态共享GPU”。论文数据显示,与ServerlessLLM等系统相比,Aegaeon能支撑2-2.5倍的请求到达率,有效吞吐量(goodput)提升1.5到9倍 [38][45] 提升效率的核心路径:芯模协同 - **芯模协同成为重要方向**:随着大模型规模化部署,模型架构、编译器、推理引擎与芯片之间的协同优化正成为新的性能突破口,旨在提高单位算力的Token产出效率和单位功耗性能 [48] - **行业实践案例**: - **阿里云全链路升级**:2026年6月,阿里云发布基于自研AI芯片真武M890的磐久AL128超节点服务器,其P2P时延低于150ns,性能是真武810E的3倍,片间互联带宽达800GB/s [51] 同时,百炼推理平台通过并池调度、上下文缓存、吞吐弹性调度等机制实现资源高效利用与极致弹性 [52] - **DeepSeek与国产芯片生态绑定**:DeepSeek-V4发布当日,华为昇腾、寒武纪等8家国产芯片厂商宣布实现Day0同步适配,体现了模型厂商与芯片厂商的深度生态绑定路径 [54]