Alphabet-谷歌c（GOOG）：公司点评：从TPU8看光互连、存储和CPU变化

投资评级 - 报告未明确给出对谷歌（GOOG.O）公司的具体投资评级 [1][9] 核心观点 - 谷歌发布第八代张量处理器（TPU）的两款新品：专为AI模型训练设计的TPU 8t，以及专为推理优化的TPU 8i，预计于2026年晚些时候上市 [8] - 谷歌认为预训练、后训练与实时推理对基础设施的需求已出现明显分化，因此将训练与推理任务拆分至独立芯片 [8] - 两款新芯片的发布进一步增强了高速互联、存储和CPU的产业趋势升级 [9] TPU 8t 升级方向总结 - 架构与性能优化：增加SparseCore专用于嵌入查找，优化VPU scaling使Softmax、Layernorm与MXU矩阵乘法重叠执行，引入FP4在维持精度的同时使MXU吞吐量翻倍 [4] - 网络互联升级：引入Virgo网络，使DCN训练带宽提升4倍，采用基于高基数交换机的双层非阻塞拓扑，ICI带宽翻倍，单Virgo网络可连接13.4万芯片，提供47 Pb/s对分带宽及160万ExaFlops总算力 [4] - 存储访问加速：通过TPUDirect RDMA和TPU Direct Storage技术，绕过主机CPU/DRAM瓶颈，实现存储访问10倍提速，数据传输带宽翻倍，保证MXU持续满载运行 [5] - 核心规格：采用3D Torus拓扑，单个Superpod集成9600个芯片，网络结构为3D Torus（ICI）+Virgo Network（东西向）+Jupiter Network（南北向） [5][8] TPU 8i 升级方向总结 - 推理场景优化：TPU 8i专为高并发推理优化，有更大片上SRAM，加入集合通信加速引擎（CAE），并在网络结构上用Boardfly替换3D Torus [5] - 网络拓扑革新：舍弃3D Torus的核心在于缩减网络直径，Boardfly通过高基数设计将网络扁平化，在1024芯片配置下，将数据传输最远跳数从16跳缩减至7跳，跳数缩减56%，通信密集型任务延迟优化50% [5][6] - 硬件与性能提升：相比前代实现3倍SRAM空间，引入CAE引擎使片上集合通信延迟降低5倍，可支撑数百万级Agent并发 [5][6] - 核心规格：采用Boardfly分层互联拓扑，通过三层级结构（构建单元BB、组Group、机池Pod）覆盖1024个芯片 [6] 关键参数对比与产业趋势 - 高速互连趋势：TPU 8i的ICI带宽为前代2倍，新架构驱动光模块以及大端口OCS需求 [9] - 存储升级趋势：TPU 8t采用6颗HBM3E 8-hi，总容量216GB；TPU 8i采用8颗HBM3E 8-hi，总容量288GB，同时SRAM增长3倍 [9][23] - CPU集成趋势：两款芯片均集成Arm Axion CPU作为宿主处理器，处理复杂的数据预处理与任务调度 [9][23] - 性能参数对比：TPU 8t的FP4峰值算力为12.6 PFLOPs，HBM内存带宽为6,528 GB/s；TPU 8i的FP4峰值算力为10.1 PFLOPs，HBM内存带宽为8,601 GB/s，约为TPU 8t的1.3倍 [23]