MFU（Model FLOPs Utilization） - 财报，业绩电话会，研报，新闻

MFU（Model FLOPs Utilization）

搜索文档

海外独角兽· 2026-01-15 20:06

文章核心观点 - 对Google TPU与Nvidia GPU在AI训练与推理场景下的总拥有成本进行系统性对比分析，结论是TCO优势取决于具体应用场景，而非单一硬件绝对领先 [3] - 训练和延迟不敏感的推理场景下TPU具有成本优势，而推理的Prefill阶段和延迟敏感的在线推理场景下GPU是更优选择 [3] - 3D Torus与Switch Fabric两套互联架构的本质差异在于对流量形态的假设不同，而非单纯的性能高低 [3][4] - Google历史上依靠TPU建立的TCO护城河，在v8这一代被Nvidia的快速迭代显著削弱 [3][5][6] TCO场景化对比分析 - **训练场景**：TPUv7在训练场景下凭借更高的Scale-out带宽和软件优化，假设其模型算力利用率高于GPU，可带来显著TCO优势。根据SemiAnalysis数据，TPUv7 External相比GB200在训练上可节省约45%成本，Google内部使用TPUv7 Internal则可节省约56%成本 [4][17] - **推理Prefill场景**：此阶段计算密集，瓶颈主要在算力。Nvidia GB200/GB300凭借FP4算力优势，在Prefill阶段相比TPUv7 External有约35-50%的成本优势 [4][18][21] - **推理Decode场景**：此阶段瓶颈主要在内存带宽和Scale-up互联带宽。TPUv7凭借更低的HBM带宽单位成本（TCO/HBM Bandwidth）具有一定优势，但实际性价比差距因受Scale-up带宽限制而缩小 [12][22][23] 硬件规格与性价比指标 - 关键硬件规格与TCO对比如下 [14]： - **GB200**：TCO为$2.28/h/GPU，FP8算力5 PFLOPS，FP4算力10 PFLOPS，HBM带宽8 TB/s，Scale-out带宽0.1 TB/s，Scale-up带宽1.8 TB/s - **TPUv7 External**：TCO为$1.6/h/GPU，FP8/FP4算力均为4.614 PFLOPS，HBM带宽7.3 TB/s，Scale-out带宽1.2 TB/s，Scale-up带宽1.2 TB/s - 采用TCO/Effective FLOPs与TCO/Bandwidth作为关键性价比中间指标进行对比 [11] - 在训练场景，TPUv7 External的TCO/Effective FP8指标为$1/h/GPU/PFLOPS，优于GB200的$1.52/h/GPU/PFLOPS [17] - 在推理Prefill场景，GB200的TCO/Effective FP4指标为$0.23/h/GPU/PFLOPS，优于TPUv7 External的$0.35/h/GPU/PFLOPS [21] - 在推理Decode场景，TPUv7 External的TCO/HBM Bandwidth指标为$0.22/hr/GPU per TB/s，优于GB200的$0.29/hr/GPU per TB/s [23] 互联架构哲学与适用场景 - **3D Torus + OCS (TPU路线)**：假设通信模式可预测、可编排，通过固定路径和时序规划，在万卡规模的常规训练任务中维持高算力利用率。但其对不规则流量适应性差，单Pod扩展上限受OCS端口数限制，当前v7p系统最大支持9,216颗TPU [5][33][40] - **Switch Fabric (GPU路线)**：包括域内NVSwitch和域外Fat-tree。NVSwitch在几十到百卡规模内实现近似全互联，延迟低且容忍任意通信模式。Fat-tree通过多级交换堆叠可将集群扩展至数十万卡，但跨域带宽比域内NVLink低一个数量级 [39] - **规模边界**： - 百卡规模的小型实验：NVSwitch占优 [41] - 千卡至两万卡规模的稳定训练：3D Torus占优，除非MoE专家数量较多 [5][41] - 十万卡以上级别的超大规模训练：只能采用Fat-tree [5] - **MoE与推理场景压力**：当MoE成为主流架构、在线推理场景增长，其不规则通信模式给3D Torus带来更大适配压力，而这正是NVSwitch的舒适区 [5][48] TPU的软件优化与局限 - TPU的软件优化本质是弥补其3D Torus互联对不规则流量的天然劣势，试图将不规则操作转化为可预测的数据流 [3][46] - **KV Cache管理**：采用预取与流水线技术，避免GPU式的随机访存，但对请求结构灵活性要求更高 [46] - **All-fused MoE Kernel**：跳过排序步骤，采用顺序处理与计算-搬运交替执行来缓解调度开销，但无法根本解决3D Torus在不规则路由下的链路过载问题 [47] - **SparseCore**：在芯片内加入独立的稀疏计算单元，专门处理MoE的分发汇聚，以硬件方式寻求通信与计算的解耦，但可能挤占张量算力面积 [48] - 总体而言，TPU的优化方向是“让不规则变规则”，需要持续工程投入适配新负载；而GPU+NVSwitch的设计哲学是“从一开始就容忍不规则”，提供更通用底座 [48] 下一代产品对比：TPU v8 与 Nvidia Rubin - **Google TPU v8**：采取双供应商策略以降低成本。TPU 8AX与Broadcom合作，采用N3E制程和HBM3E，内存带宽9.8 TB/s。TPU 8X与MediaTek合作，采用N3P制程，旨在通过绕过设计公司直接采购HBM来降低BOM成本，但导致工程资源分散、流片周期拉长 [49][50] - **Nvidia Rubin**：规格激进，显著倾向于优化推理性能与TCO [51] - **FP4算力翻倍**：VR200的FP4算力达33.3 PFLOPS，相比GB300的15 PFLOPS实现翻倍，主要通过将I/O面积重新分配给计算单元、采用更先进制程及提高TDP至约2300W实现 [52] - **HBM4带宽领先**：VR200采用HBM4，带宽达20 TB/s，显著高于TPU v8的9.8 TB/s [53] - **推出专用芯片CPX**：针对Prefill场景推出低成本CPX芯片，在仅相当于R200约1/4 BOM成本下，提供其约60%的FP4算力，进一步巩固Prefill阶段的TCO优势 [53][54] - **TCO护城河削弱**：对比显示，TPU相对于GPU的TCO优势正在收窄。从GB200对TPUv7 External，到VR200对TPU v8p External，训练TCO差距从1.52倍收窄至1.23倍，HBM带宽性价比差距从1.32倍收窄至1.10倍 [6][57] - 优势收窄原因包括：TPU v8制程与内存（HBM3E）相对保守、内存带宽落后、SerDes升级节奏慢，以及从芯片到机架的供应链周期较长 [57][58]

AI算力

TCO（Total Cost of Ownership）

MFU（Model FLOPs Utilization）

3D Torus

Switch Fabric（NVSwitch / Fat - tree）

Semiconductors

AI算力

TCO（Total Cost of Ownership）

MFU（Model FLOPs Utilization）

3D Torus

Switch Fabric（NVSwitch / Fat - tree）

Semiconductors