中金 | Cloud Next 26：TPU v8发布，芯片及网络的精益化再升级

文章核心观点 Google在Cloud Next 2026大会上发布了第八代自研AI芯片TPU 8t和TPU 8i，这是其首次将训练和推理芯片进行分开设计，标志着AI硬件基础设施进入精益化分工的新阶段[1]。这一分叉设计旨在解决大模型训练与推理场景下不同的性能瓶颈：训练侧强调吞吐与扩展，核心是“喂满”集群；推理侧则聚焦于降低长上下文、多智能体及MoE模型的延迟[3]。公司认为，这种专芯专用的架构升级，结合网络、存储等全栈系统优化，将进一步提升AI算力效率，强化“供给降本-需求增加”的飞轮效应，并继续看好光通信、芯片定制服务、存储、晶圆代工等核心产业链方向[1]。 TPU v8芯片设计分叉与核心规格 - TPU 8t定位大规模训练：采用单Die设计，配备216GB HBM，带宽为6.528TB/s，片上SRAM为128MB[4]。其核心增量在于更平衡的VPU/MXU设计、原生支持FP4数据格式，以及TPUDirect RDMA/Storage，目标是解决训练中向量/非线性算子暴露时间等瓶颈，最大化集群计算利用率[3][8][10]。 - TPU 8i定位推理与智能体工作流：采用双Die设计，配备288GB HBM（带宽8.601TB/s）和384MB片上SRAM，容量约为前代及8t的3倍[4][19]。其核心增量在于大容量SRAM、高带宽HBM、专用集合通信加速引擎（CAE）以及Boardfly网络拓扑，旨在降低KV Cache访问延迟和跨芯片通信延迟[3][19][24]。 - 经济性显著提升：TPU 8t在训练场景下，每美元性能提升高达2.7倍，每瓦性能提升2倍[12]。TPU 8i在推理场景下，每美元性能提升80%，每瓦性能提升2倍[4][22]。训练芯片（TPU 8t）的优化路径 - 解决训练瓶颈转移问题：大模型训练的瓶颈不再仅是矩阵乘法（GEMM），随着序列长度增长，Softmax、LayerNorm等向量/非线性算子的耗时占比抬升[6]。TPU 8t通过更平衡的VPU/MXU设计，使这些操作能与矩阵乘法更好地重叠执行，减少流水线空闲[8][10]。 - 原生FP4提升系统效率：引入原生FP4支持，通过更低位宽提升单位HBM带宽的数据搬运效率，从而释放更多有效算力，优化计算吞吐密度并降低数据搬运开销和能耗[11][12]。 - 存储与数据通路优化：引入TPUDirect RDMA/Storage，允许TPU的HBM直接与网卡、高速存储交换数据，绕过CPU中介，使训练时的存储访问速度提升10倍[31][32]。配合Virgo网络架构，支撑大规模训练集群的扩展与数据供给[12][40]。推理芯片（TPU 8i）的优化路径 - 聚焦长上下文推理痛点：长上下文、多轮对话及智能体推理的核心瓶颈在于KV Cache的读取与访问延迟，而非算力本身[7][19]。TPU 8i通过将片上SRAM大幅提升至384MB，旨在将更多高频访问的KV数据保留在片上，提高缓存命中率，减少对HBM和远端内存的依赖[19][24]。 - 强化通信与同步能力：用专用的集合通信加速引擎（CAE）替代了训练导向的SparseCore，将片上集合通信延迟降低最高5倍，以优化MoE和推理场景中频繁的芯片间同步[25]。同时，采用Boardfly网络拓扑，将1024芯片系统中的最大通信跳数从16跳压缩至7跳，网络直径下降56%，通信密集负载延迟最高改善50%[42]。 - 资源配置向内存与通信倾斜：采用双Die+8 HBM堆栈的设计，提供更高的HBM容量（288GB）和带宽（8.601TB/s），资源堆料优先级明确指向提升本地内存容量和通信效率，以缩短单Token响应时延[29][38]。网络架构升级 - 训练网络（TPU 8t）：Scale-out单卡带宽翻四倍至400Gb，采用全新的Virgo两层无阻塞拓扑，单Fabric可支持13.4万颗TPU，实现百万卡集群的近线性扩展[40]。前端Jupiter架构增加了光电路交换机（OCS）的用量[40][45]。 - 推理网络（TPU 8i）：采用特制的Boardfly ICI拓扑架构，在第三层使用OCS实现全连接。根据测算，每个TPU 8i对应约1.25个1.6T光模块，带来了额外的光模块增量需求[43][45]。该架构专为满足MoE等场景的All-to-all低延迟通信需求而设计[42]。 - 网络投资占比趋势：以谷歌链为代表的AI ASIC架构中，未来可能出现更多网络投资占比提升的方案，AI光通信被视为有望超越大市长期表现的方向[2][45]。系统存储与数据访问 - 强调低延迟直连访问：本次发布重点在于TPUDirect RDMA/Storage、Managed Lustre并行文件系统等低延迟访问方案，而非市场此前预期的内存池化技术[30]。Managed Lustre通过RDMA可为TPU 8t提供10TB/s吞吐，Rapid Storage吞吐从6TB/s提升至15TB/s[32]。 - 新增Z4M虚拟机节点：该节点搭载大容量本地SSD，并支持RDMA与开源并行文件系统，作为本地高性能存储底座，与远端Managed Lustre形成互补，服务于低时延数据热缓存和灵活部署[37]。 - HBM配置差异：TPU 8t的HBM带宽为6.528TB/s，重点在于通过FP4和直连存储提升整体数据通路效率；TPU 8i的HBM带宽则明确升级至8.601TB/s，容量增至288GB，以支持更大的KV Cache工作集和更快的读取速度[38]。