谷歌发布新一代AI加速器TPU 8系列 - 公司在年度Cloud Next大会上推出两款新的内部AI加速器:TPU 8t(用于训练)和TPU 8i(用于推理)[2] - 公司采取双轨制加速器开发策略,分别针对训练和推理工作负载进行优化设计[2] - 第八代张量处理单元(TPU)的训练速度比去年的Ironwood TPU快2.8倍,且每美元在大语言模型推理方面的性能提高了80%[2] 硬件规格与性能对比 - TPU 8t(训练芯片):配备216 GB高带宽内存,带宽达6.5 TB/s,128 MB片上SRAM,4位浮点计算能力达12.6 petaFLOPS,芯片间带宽高达19.2 Tbps[6] - TPU 8i(推理芯片):拥有10.1 petaFLOPS的FP4计算能力,配备384 MB片上SRAM和288 GB HBM,可提供8.6 TB/s的带宽[9] - 与英伟达Rubin GPU(35 petaFLOPS FP4训练性能,288 GB HBM4,带宽22 TB/s)相比,单个谷歌TPU在纸面算力上较低,但公司强调在超大规模集群扩展能力上更胜一筹[6] 大规模集群与网络架构创新 - TPU 8t使用光路开关技术,可在一个统一模块中连接多达9,600个加速器[7] - 通过新的Virgo网络连接多个pod以支持更大计算域,采用扁平化两层全连接拓扑,每个数据中心最多可连接134,000个TPU,连接多个站点时最多可达100万个TPU[7] - 针对推理工作负载,公司开发了名为Boardfly的网络拓扑,将最大芯片间延迟从3D环面中的16跳减少到仅7跳,以降低运行混合专家或推理模型时的延迟[11] 针对推理工作负载的专门优化 - 推理芯片TPU 8i牺牲部分浮点运算能力,换取更大的SRAM缓存和更快、更高容量的内存池,以应对内存带宽瓶颈[9] - TPU 8i放弃了SparseCores,转而采用集体加速引擎,可将集体通信延迟降低五倍,从而提高经济效益,允许在相同硬件上容纳更多用户[9][11] - 片上SRAM有助于将更多的键值缓存保留在芯片上,减少内核等待数据的时间[9] 生态系统与配套技术 - 公司放弃了x86处理器,转而使用自主研发的基于Arm架构的Axion CPU作为其TPU主机[3] - 开发了能够将10 TB/s聚合数据传输到加速器内存的托管Lustre存储系统[7] - 改进的可靠性、可用性和可维护性能力,结合新的网络和存储技术,据称可将训练优化型TPU的“有效吞吐量”提升至97%[7] 行业背景与竞争格局 - 谷歌并非首家采用训练与推理分离策略的公司,亚马逊网络服务在AI芯片研发早期就已意识到需要针对两者进行优化的加速器[2] - 英伟达的Blackwell Ultra系列GPU也针对AI推理进行了优化,牺牲高精度运算能力,换取了比Blackwell系列提升50%的内存和FP4计算能力[2] - 亚马逊今年早些时候也对Graviton和Trainium 3进行了类似的改进,放弃了用于推理的3D环面网络拓扑[3][12] 产品上市与应用 - 两款TPU 8加速器将于今年晚些时候在Google Cloud Platform上正式推出[12] - 产品既可以作为实例使用,也可以作为该云提供商全栈AI超级计算机平台的一部分,该平台整合了大规模部署或训练大语言模型所需的所有网络、存储、计算和软件[12]
一颗AI芯片打天下的时代,宣告终结