一颗AI芯片打天下的时代，宣告终结

谷歌发布新一代AI加速器TPU 8系列 - 公司在年度Cloud Next大会上推出两款新的内部AI加速器：TPU 8t（用于训练）和TPU 8i（用于推理）[2] - 公司采取双轨制加速器开发策略，分别针对训练和推理工作负载进行优化设计[2] - 第八代张量处理单元（TPU）的训练速度比去年的Ironwood TPU快2.8倍，且每美元在大语言模型推理方面的性能提高了80%[2] 硬件规格与性能对比 - TPU 8t（训练芯片）：配备216 GB高带宽内存，带宽达6.5 TB/s，128 MB片上SRAM，4位浮点计算能力达12.6 petaFLOPS，芯片间带宽高达19.2 Tbps[6] - TPU 8i（推理芯片）：拥有10.1 petaFLOPS的FP4计算能力，配备384 MB片上SRAM和288 GB HBM，可提供8.6 TB/s的带宽[9] - 与英伟达Rubin GPU（35 petaFLOPS FP4训练性能，288 GB HBM4，带宽22 TB/s）相比，单个谷歌TPU在纸面算力上较低，但公司强调在超大规模集群扩展能力上更胜一筹[6] 大规模集群与网络架构创新 - TPU 8t使用光路开关技术，可在一个统一模块中连接多达9,600个加速器[7] - 通过新的Virgo网络连接多个pod以支持更大计算域，采用扁平化两层全连接拓扑，每个数据中心最多可连接134,000个TPU，连接多个站点时最多可达100万个TPU[7] - 针对推理工作负载，公司开发了名为Boardfly的网络拓扑，将最大芯片间延迟从3D环面中的16跳减少到仅7跳，以降低运行混合专家或推理模型时的延迟[11] 针对推理工作负载的专门优化 - 推理芯片TPU 8i牺牲部分浮点运算能力，换取更大的SRAM缓存和更快、更高容量的内存池，以应对内存带宽瓶颈[9] - TPU 8i放弃了SparseCores，转而采用集体加速引擎，可将集体通信延迟降低五倍，从而提高经济效益，允许在相同硬件上容纳更多用户[9][11] - 片上SRAM有助于将更多的键值缓存保留在芯片上，减少内核等待数据的时间[9] 生态系统与配套技术 - 公司放弃了x86处理器，转而使用自主研发的基于Arm架构的Axion CPU作为其TPU主机[3] - 开发了能够将10 TB/s聚合数据传输到加速器内存的托管Lustre存储系统[7] - 改进的可靠性、可用性和可维护性能力，结合新的网络和存储技术，据称可将训练优化型TPU的“有效吞吐量”提升至97%[7] 行业背景与竞争格局 - 谷歌并非首家采用训练与推理分离策略的公司，亚马逊网络服务在AI芯片研发早期就已意识到需要针对两者进行优化的加速器[2] - 英伟达的Blackwell Ultra系列GPU也针对AI推理进行了优化，牺牲高精度运算能力，换取了比Blackwell系列提升50%的内存和FP4计算能力[2] - 亚马逊今年早些时候也对Graviton和Trainium 3进行了类似的改进，放弃了用于推理的3D环面网络拓扑[3][12] 产品上市与应用 - 两款TPU 8加速器将于今年晚些时候在Google Cloud Platform上正式推出[12] - 产品既可以作为实例使用，也可以作为该云提供商全栈AI超级计算机平台的一部分，该平台整合了大规模部署或训练大语言模型所需的所有网络、存储、计算和软件[12]