刚刚，谷歌发布两款芯片，剑指英伟达!

文章核心观点 - 谷歌发布第八代TPU，首次将训练与推理任务分离至两款专用芯片TPU 8t和TPU 8i，旨在挑战英伟达在AI硬件领域的领导地位，并满足AI智能体时代对基础设施的新需求 [2][6][23] 行业趋势：科技巨头自研AI芯片 - 全球顶尖科技公司正寻求定制化AI半导体开发，以提升效率并满足特定需求 [2] - 苹果在其iPhone芯片中集成神经网络引擎AI组件，微软于2024年1月发布第二代AI芯片，Meta正与博通合作开发多个版本的AI处理器 [2] - 谷歌早在2015年即开始使用自研处理器运行AI模型，并于2018年开始向云客户出租TPU [3] - 亚马逊网络服务于2018年发布用于AI推理的Inferentia芯片，并于2020年推出用于AI模型训练的Trainium处理器 [3] 谷歌TPU业务价值与市场定位 - DA Davidson分析师在2024年9月估计，谷歌TPU业务加上Google DeepMind AI集团的价值约为9000亿美元 [3] - 谷歌是英伟达的大客户，但也向使用其云服务的公司提供TPU作为替代方案 [2] - 目前尚无科技巨头能取代英伟达，谷歌未将新芯片性能直接与英伟达产品比较 [3] 第八代TPU产品概述 - 谷歌推出第八代TPU，包含两款专为训练和推理设计的架构：TPU 8t（训练）和TPU 8i（推理） [6] - 两款芯片旨在为谷歌定制的超级计算机提供动力，支持从模型训练、智能体开发到海量推理的各种应用 [6] - 芯片是与Google DeepMind合作设计，旨在应对最苛刻的AI工作负载并适应不断演进的模型架构 [6] - 两款芯片均将于2024年晚些时候上市 [2][23] TPU 8t（训练芯片）性能与特性 - 性能是2023年11月发布的第七代Ironwood TPU的2.8倍，价格相同 [3] - 旨在将前沿模型开发周期从数月缩短至数周 [11] - 每个Pod的计算性能比上一代产品提升近3倍 [11] - 单个TPU 8t超级芯片组可扩展至9,600个芯片和2 PB共享高带宽内存，芯片间带宽是上一代的两倍 [15] - 架构可提供121 ExaFlops的计算能力 [15] - 集成了速度提升10倍的存储访问，结合TPUDirect将数据直接拉入TPU [15] - 通过全新的Virgo网络、JAX和Pathways软件，可在单个逻辑集群中为多达一百万个芯片提供近乎线性的扩展 [15] - 通过全面的可靠性、可用性和可维护性功能，力求实现超过97%的“有效吞吐量” [12] - 采用第四代液冷技术，每瓦性能比上一代Ironwood提升高达两倍 [20] TPU 8i（推理芯片）性能与特性 - 与上一代产品相比，每美元性能提高了80% [13] - 拥有更高的内存带宽，专为对延迟敏感的推理工作负载设计 [8] - 每个芯片包含384 MB的片上SRAM，是Ironwood芯片容量的3倍 [4][16] - 将288 GB高带宽内存与384 MB片上SRAM结合，使模型活动工作集完全在芯片上，以突破“内存墙” [16] - 对于现代混合专家模型，将互连带宽提高了一倍，达到19.2 Tb/s [16] - 采用全新的片上集体加速引擎，可将片上延迟降低至多5倍 [16] - 采用第四代液冷技术，每瓦性能比上一代Ironwood提升高达两倍 [20] 技术规格对比（与第七代Ironwood TPU） TPU 8t (训练) - Pod size: 9,600 (Ironwood: 9,216) [13] - FP4 EFlops per pod: 121 (Ironwood: 42.5) [13] - Bidirectional scale-up bandwidth: 19.2 Tb/s per chip (Ironwood: 9.6 Tb/s per chip) [13] - Scale-out networking bandwidth: 400 Gb/s per chip (Ironwood: 100 Gb/s per chip) [13] TPU 8i (推理) - Pod size: 1,152 (Ironwood: 256) [14] - FP8 EFlops per pod: 11.6 (Ironwood: 1.2) [14] - Total HBM capacity per pod: 331.8 TB (Ironwood: 49.2 TB) [14] - Bidirectional scale-up bandwidth: 19.2 Tb/s per chip (Ironwood: 9.6 Tb/s per chip) [14] 系统级优化与设计理念 - 两款芯片首次均运行在谷歌自家基于ARM的Axion CPU主机上，可优化整个系统以提高性能和效率 [19] - 通过全栈协同设计（从芯片、硬件、网络到软件）提高能效和绝对性能 [7] - 网络连接与计算集成在同一芯片上，降低了芯片间数据传输能耗 [20] - 数据中心单位电力下的计算能力比五年前提高了六倍 [20] 客户应用与生态 - 谷歌AI芯片应用加速增长，TPU为包括Gemini在内的领先基础模型提供支持 [5][6] - Citadel Securities开发了基于谷歌TPU的量化研究软件 [5][7] - 美国能源部所有17个国家实验室使用基于TPU构建的AI协同科学家软件 [5] - Anthropic公司已承诺使用数吉瓦的谷歌TPU [5] - 平台原生支持JAX、MaxText、PyTorch、SGLang和vLLM等开发者框架，并提供裸机访问 [19]