投资评级 - 报告未明确给出对谷歌(GOOG.O)公司的具体投资评级 [1][9] 核心观点 - 谷歌发布第八代张量处理器(TPU)的两款新品:专为AI模型训练设计的TPU 8t,以及专为推理优化的TPU 8i,预计于2026年晚些时候上市 [8] - 谷歌认为预训练、后训练与实时推理对基础设施的需求已出现明显分化,因此将训练与推理任务拆分至独立芯片 [8] - 两款新芯片的发布进一步增强了高速互联、存储和CPU的产业趋势升级 [9] TPU 8t 升级方向总结 - 架构与性能优化:增加SparseCore专用于嵌入查找,优化VPU scaling使Softmax、Layernorm与MXU矩阵乘法重叠执行,引入FP4在维持精度的同时使MXU吞吐量翻倍 [4] - 网络互联升级:引入Virgo网络,使DCN训练带宽提升4倍,采用基于高基数交换机的双层非阻塞拓扑,ICI带宽翻倍,单Virgo网络可连接13.4万芯片,提供47 Pb/s对分带宽及160万ExaFlops总算力 [4] - 存储访问加速:通过TPUDirect RDMA和TPU Direct Storage技术,绕过主机CPU/DRAM瓶颈,实现存储访问10倍提速,数据传输带宽翻倍,保证MXU持续满载运行 [5] - 核心规格:采用3D Torus拓扑,单个Superpod集成9600个芯片,网络结构为3D Torus(ICI)+Virgo Network(东西向)+Jupiter Network(南北向) [5][8] TPU 8i 升级方向总结 - 推理场景优化:TPU 8i专为高并发推理优化,有更大片上SRAM,加入集合通信加速引擎(CAE),并在网络结构上用Boardfly替换3D Torus [5] - 网络拓扑革新:舍弃3D Torus的核心在于缩减网络直径,Boardfly通过高基数设计将网络扁平化,在1024芯片配置下,将数据传输最远跳数从16跳缩减至7跳,跳数缩减56%,通信密集型任务延迟优化50% [5][6] - 硬件与性能提升:相比前代实现3倍SRAM空间,引入CAE引擎使片上集合通信延迟降低5倍,可支撑数百万级Agent并发 [5][6] - 核心规格:采用Boardfly分层互联拓扑,通过三层级结构(构建单元BB、组Group、机池Pod)覆盖1024个芯片 [6] 关键参数对比与产业趋势 - 高速互连趋势:TPU 8i的ICI带宽为前代2倍,新架构驱动光模块以及大端口OCS需求 [9] - 存储升级趋势:TPU 8t采用6颗HBM3E 8-hi,总容量216GB;TPU 8i采用8颗HBM3E 8-hi,总容量288GB,同时SRAM增长3倍 [9][23] - CPU集成趋势:两款芯片均集成Arm Axion CPU作为宿主处理器,处理复杂的数据预处理与任务调度 [9][23] - 性能参数对比:TPU 8t的FP4峰值算力为12.6 PFLOPs,HBM内存带宽为6,528 GB/s;TPU 8i的FP4峰值算力为10.1 PFLOPs,HBM内存带宽为8,601 GB/s,约为TPU 8t的1.3倍 [23]
谷歌c(GOOG):公司点评:从TPU8看光互连、存储和CPU变化