谷歌撰文,剖析最新TPU架构
半导体行业观察·2026-04-23 14:46

谷歌TPU设计理念与AI硬件演进 - 公司TPU设计始终围绕可扩展性、可靠性和效率三大支柱[1] - 为应对AI模型从大型语言模型向大规模混合专家模型和推理密集型架构演进,硬件需超越单纯提升FLOPS,满足最新工作负载的特定运算强度[1] - 智能体AI和世界模型的兴起需要能处理长上下文窗口、复杂序列逻辑及模拟预测场景的基础设施[1] - 第八代TPU是应对上述挑战的解决方案,旨在高效训练和运行如Genie 3等世界模型,支持数百万智能体在模拟环境中练习推理[1] 第八代TPU系统概览 - 第八代TPU针对预训练、后训练和实时服务需求分化,引入两个不同系统:TPU 8t和TPU 8i[4] - 两者均为谷歌云AI超级计算机的关键组件,该架构结合硬件、软件和网络,为完整AI生命周期提供支持[4] - 系统集成了基于Arm的Axion CPU接口,以消除数据准备延迟造成的主机瓶颈,确保TPU资源充足[4] TPU 8t:大规模预训练优化 - TPU 8t针对大规模预训练和嵌入密集型工作负载优化,采用3D环面网络拓扑,单个超级节点集成9600个芯片[5] - 核心是SparseCore加速器,专门处理嵌入查找的不规则内存访问模式,避免通用芯片的零操作瓶颈[6] - 通过更均衡的向量处理单元扩展,最小化暴露的向量运算时间,使量化、softmax等运算能与矩阵乘法更好重叠[6] - 引入原生4位浮点运算,将MXU吞吐量提升一倍,同时保持大型模型精度,减少能耗和数据传输[6] - 推出Virgo Network新架构,使TPU 8t训练的数据中心网络带宽提升高达4倍[7] - 芯片间互连带宽提升2倍,原始数据中心网络横向扩展带宽提升高达4倍[9] - Virgo Network能在单个架构中连接超过134,000个TPU 8t芯片,提供高达47 PB/s的无阻塞双向带宽,计算能力超过160万ExaFlops[9] - 引入TPUDirect RDMA和TPU Direct Storage,支持TPU内存与网络接口卡及高速存储的直接数据传输[10] - 结合Managed Lustre 10T和TPUDirect Storage,实现10倍的存储访问速度提升[10] TPU 8i:训练后处理与高并发推理优化 - TPU 8i针对训练后处理和高并发推理优化,采用最高片上SRAM、新的集体加速引擎和Boardfly网络拓扑[13] - 片上SRAM容量比上一代增加3倍,可完全在硅片上容纳更大的KV缓存,减少长上下文解码期间内核空闲时间[13] - 采用集体加速引擎,能以近乎零延迟聚合跨核心结果,显著加速自回归解码和“思维链”处理[14] - 集体操作的片上延迟进一步降低了5倍[14] - 放弃3D环面,采用Boardfly ICI拓扑,通过全连接板聚合,最多可连接1152个芯片,减小网络直径[15] - 在通信密集型工作负载下,Boardfly实现了高达50%的延迟降低[15] - 对于1024芯片配置,Boardfly将网络直径从16跳减少到仅7跳,减少56%[17] - 最终架构可扩展至36个组,通过光路交换机连接,确保任何芯片间通信最大延迟为7跳[19] TPU 8t与TPU 8i规格对比 - 主要工作负载:TPU 8t针对大规模预训练,TPU 8i针对采样、服务和推理[20] - 网络拓扑:TPU 8t为3D环面,TPU 8i为Boardfly[20] - 专用芯片特性:TPU 8t配备SparseCore,TPU 8i配备集体加速引擎[20] - HBM容量:TPU 8t为216 GB,TPU 8i为288 GB[20] - 片上SRAM:TPU 8t为128 MB,TPU 8i为384 MB[20] - 峰值FP4 PFLOPs:TPU 8t为12.6,TPU 8i为10.1[20] - HBM带宽:TPU 8t为6,528 GB/s,TPU 8i为8,601 GB/s,约为TPU 8t的1.3倍[20] - CPU接口:两者均采用Arm Axion[20] 软件技术栈与性能提升 - 第八代TPU基于性能优先的AI软件技术栈构建[22] - 提供对Pallas自定义内核语言的一流支持,使用户能充分发挥TPU 8i CAE和TPU 8t SparseCore性能[24] - 推出TPU的原生PyTorch支持预览版,便于现有PyTorch模型迁移[24] - 在Ironwood上运行的JAX、PyTorch或Keras代码可移植到第八代产品[24] - 与第七代Ironwood TPU相比,TPU 8t在大规模训练上的性价比提高了2.7倍[25] - TPU 8i在大型MoE模型低延迟目标上的性价比比Ironwood TPU提高了80%[25] - 两款芯片的每瓦性能提升高达2倍[25]

谷歌撰文,剖析最新TPU架构 - Reportify