谷歌撰文，剖析最新TPU架构

谷歌TPU设计理念与AI硬件演进 - 公司TPU设计始终围绕可扩展性、可靠性和效率三大支柱[1] - 为应对AI模型从大型语言模型向大规模混合专家模型和推理密集型架构演进，硬件需超越单纯提升FLOPS，满足最新工作负载的特定运算强度[1] - 智能体AI和世界模型的兴起需要能处理长上下文窗口、复杂序列逻辑及模拟预测场景的基础设施[1] - 第八代TPU是应对上述挑战的解决方案，旨在高效训练和运行如Genie 3等世界模型，支持数百万智能体在模拟环境中练习推理[1] 第八代TPU系统概览 - 第八代TPU针对预训练、后训练和实时服务需求分化，引入两个不同系统：TPU 8t和TPU 8i[4] - 两者均为谷歌云AI超级计算机的关键组件，该架构结合硬件、软件和网络，为完整AI生命周期提供支持[4] - 系统集成了基于Arm的Axion CPU接口，以消除数据准备延迟造成的主机瓶颈，确保TPU资源充足[4] TPU 8t：大规模预训练优化 - TPU 8t针对大规模预训练和嵌入密集型工作负载优化，采用3D环面网络拓扑，单个超级节点集成9600个芯片[5] - 核心是SparseCore加速器，专门处理嵌入查找的不规则内存访问模式，避免通用芯片的零操作瓶颈[6] - 通过更均衡的向量处理单元扩展，最小化暴露的向量运算时间，使量化、softmax等运算能与矩阵乘法更好重叠[6] - 引入原生4位浮点运算，将MXU吞吐量提升一倍，同时保持大型模型精度，减少能耗和数据传输[6] - 推出Virgo Network新架构，使TPU 8t训练的数据中心网络带宽提升高达4倍[7] - 芯片间互连带宽提升2倍，原始数据中心网络横向扩展带宽提升高达4倍[9] - Virgo Network能在单个架构中连接超过134,000个TPU 8t芯片，提供高达47 PB/s的无阻塞双向带宽，计算能力超过160万ExaFlops[9] - 引入TPUDirect RDMA和TPU Direct Storage，支持TPU内存与网络接口卡及高速存储的直接数据传输[10] - 结合Managed Lustre 10T和TPUDirect Storage，实现10倍的存储访问速度提升[10] TPU 8i：训练后处理与高并发推理优化 - TPU 8i针对训练后处理和高并发推理优化，采用最高片上SRAM、新的集体加速引擎和Boardfly网络拓扑[13] - 片上SRAM容量比上一代增加3倍，可完全在硅片上容纳更大的KV缓存，减少长上下文解码期间内核空闲时间[13] - 采用集体加速引擎，能以近乎零延迟聚合跨核心结果，显著加速自回归解码和“思维链”处理[14] - 集体操作的片上延迟进一步降低了5倍[14] - 放弃3D环面，采用Boardfly ICI拓扑，通过全连接板聚合，最多可连接1152个芯片，减小网络直径[15] - 在通信密集型工作负载下，Boardfly实现了高达50%的延迟降低[15] - 对于1024芯片配置，Boardfly将网络直径从16跳减少到仅7跳，减少56%[17] - 最终架构可扩展至36个组，通过光路交换机连接，确保任何芯片间通信最大延迟为7跳[19] TPU 8t与TPU 8i规格对比 - 主要工作负载：TPU 8t针对大规模预训练，TPU 8i针对采样、服务和推理[20] - 网络拓扑：TPU 8t为3D环面，TPU 8i为Boardfly[20] - 专用芯片特性：TPU 8t配备SparseCore，TPU 8i配备集体加速引擎[20] - HBM容量：TPU 8t为216 GB，TPU 8i为288 GB[20] - 片上SRAM：TPU 8t为128 MB，TPU 8i为384 MB[20] - 峰值FP4 PFLOPs：TPU 8t为12.6，TPU 8i为10.1[20] - HBM带宽：TPU 8t为6,528 GB/s，TPU 8i为8,601 GB/s，约为TPU 8t的1.3倍[20] - CPU接口：两者均采用Arm Axion[20] 软件技术栈与性能提升 - 第八代TPU基于性能优先的AI软件技术栈构建[22] - 提供对Pallas自定义内核语言的一流支持，使用户能充分发挥TPU 8i CAE和TPU 8t SparseCore性能[24] - 推出TPU的原生PyTorch支持预览版，便于现有PyTorch模型迁移[24] - 在Ironwood上运行的JAX、PyTorch或Keras代码可移植到第八代产品[24] - 与第七代Ironwood TPU相比，TPU 8t在大规模训练上的性价比提高了2.7倍[25] - TPU 8i在大型MoE模型低延迟目标上的性价比比Ironwood TPU提高了80%[25] - 两款芯片的每瓦性能提升高达2倍[25]