中金 | Cloud Next 26:TPU v8发布,芯片及网络的精益化再升级
中金点睛·2026-04-30 08:01

文章核心观点 Google在Cloud Next 2026大会上发布了第八代自研AI芯片TPU 8t和TPU 8i,这是其首次将训练和推理芯片进行分开设计,标志着AI硬件基础设施进入精益化分工的新阶段[1]。这一分叉设计旨在解决大模型训练与推理场景下不同的性能瓶颈:训练侧强调吞吐与扩展,核心是“喂满”集群;推理侧则聚焦于降低长上下文、多智能体及MoE模型的延迟[3]。公司认为,这种专芯专用的架构升级,结合网络、存储等全栈系统优化,将进一步提升AI算力效率,强化“供给降本-需求增加”的飞轮效应,并继续看好光通信、芯片定制服务、存储、晶圆代工等核心产业链方向[1]。 TPU v8芯片设计分叉与核心规格 - TPU 8t定位大规模训练:采用单Die设计,配备216GB HBM,带宽为6.528TB/s,片上SRAM为128MB[4]。其核心增量在于更平衡的VPU/MXU设计、原生支持FP4数据格式,以及TPUDirect RDMA/Storage,目标是解决训练中向量/非线性算子暴露时间等瓶颈,最大化集群计算利用率[3][8][10]。 - TPU 8i定位推理与智能体工作流:采用双Die设计,配备288GB HBM(带宽8.601TB/s)和384MB片上SRAM,容量约为前代及8t的3倍[4][19]。其核心增量在于大容量SRAM、高带宽HBM、专用集合通信加速引擎(CAE)以及Boardfly网络拓扑,旨在降低KV Cache访问延迟和跨芯片通信延迟[3][19][24]。 - 经济性显著提升:TPU 8t在训练场景下,每美元性能提升高达2.7倍,每瓦性能提升2倍[12]。TPU 8i在推理场景下,每美元性能提升80%,每瓦性能提升2倍[4][22]。 训练芯片(TPU 8t)的优化路径 - 解决训练瓶颈转移问题:大模型训练的瓶颈不再仅是矩阵乘法(GEMM),随着序列长度增长,Softmax、LayerNorm等向量/非线性算子的耗时占比抬升[6]。TPU 8t通过更平衡的VPU/MXU设计,使这些操作能与矩阵乘法更好地重叠执行,减少流水线空闲[8][10]。 - 原生FP4提升系统效率:引入原生FP4支持,通过更低位宽提升单位HBM带宽的数据搬运效率,从而释放更多有效算力,优化计算吞吐密度并降低数据搬运开销和能耗[11][12]。 - 存储与数据通路优化:引入TPUDirect RDMA/Storage,允许TPU的HBM直接与网卡、高速存储交换数据,绕过CPU中介,使训练时的存储访问速度提升10倍[31][32]。配合Virgo网络架构,支撑大规模训练集群的扩展与数据供给[12][40]。 推理芯片(TPU 8i)的优化路径 - 聚焦长上下文推理痛点:长上下文、多轮对话及智能体推理的核心瓶颈在于KV Cache的读取与访问延迟,而非算力本身[7][19]。TPU 8i通过将片上SRAM大幅提升至384MB,旨在将更多高频访问的KV数据保留在片上,提高缓存命中率,减少对HBM和远端内存的依赖[19][24]。 - 强化通信与同步能力:用专用的集合通信加速引擎(CAE)替代了训练导向的SparseCore,将片上集合通信延迟降低最高5倍,以优化MoE和推理场景中频繁的芯片间同步[25]。同时,采用Boardfly网络拓扑,将1024芯片系统中的最大通信跳数从16跳压缩至7跳,网络直径下降56%,通信密集负载延迟最高改善50%[42]。 - 资源配置向内存与通信倾斜:采用双Die+8 HBM堆栈的设计,提供更高的HBM容量(288GB)和带宽(8.601TB/s),资源堆料优先级明确指向提升本地内存容量和通信效率,以缩短单Token响应时延[29][38]。 网络架构升级 - 训练网络(TPU 8t):Scale-out单卡带宽翻四倍至400Gb,采用全新的Virgo两层无阻塞拓扑,单Fabric可支持13.4万颗TPU,实现百万卡集群的近线性扩展[40]。前端Jupiter架构增加了光电路交换机(OCS)的用量[40][45]。 - 推理网络(TPU 8i):采用特制的Boardfly ICI拓扑架构,在第三层使用OCS实现全连接。根据测算,每个TPU 8i对应约1.25个1.6T光模块,带来了额外的光模块增量需求[43][45]。该架构专为满足MoE等场景的All-to-all低延迟通信需求而设计[42]。 - 网络投资占比趋势:以谷歌链为代表的AI ASIC架构中,未来可能出现更多网络投资占比提升的方案,AI光通信被视为有望超越大市长期表现的方向[2][45]。 系统存储与数据访问 - 强调低延迟直连访问:本次发布重点在于TPUDirect RDMA/Storage、Managed Lustre并行文件系统等低延迟访问方案,而非市场此前预期的内存池化技术[30]。Managed Lustre通过RDMA可为TPU 8t提供10TB/s吞吐,Rapid Storage吞吐从6TB/s提升至15TB/s[32]。 - 新增Z4M虚拟机节点:该节点搭载大容量本地SSD,并支持RDMA与开源并行文件系统,作为本地高性能存储底座,与远端Managed Lustre形成互补,服务于低时延数据热缓存和灵活部署[37]。 - HBM配置差异:TPU 8t的HBM带宽为6.528TB/s,重点在于通过FP4和直连存储提升整体数据通路效率;TPU 8i的HBM带宽则明确升级至8.601TB/s,容量增至288GB,以支持更大的KV Cache工作集和更快的读取速度[38]。

中金 | Cloud Next 26:TPU v8发布,芯片及网络的精益化再升级 - Reportify