马斯克站台谷歌第8代TPU！训练从数月缩至数周、推理性价比提升80%

谷歌第8代TPU产品发布与核心观点 - 文章核心观点认为谷歌第8代TPU (TPU v8) 被市场低估，其专为Agent时代打造，通过“训推分离”的彻底硬件方案、显著的能效提升以及全栈协同优化，为AI智能体的大规模落地提供了变革性的硬件基础，并已获得资本市场的初步认可 [1][2][6][7][11][44] 产品战略与架构设计 - 公司在“训推分离”道路上比竞争对手走得更彻底，直接推出了物理上完全不同的两款芯片：面向训练的TPU 8t和面向推理的TPU 8i [3][16] - 采取此战略的原因是智能体时代对训练（要求“快”）和推理（要求“稳”）的延迟与吞吐要求截然不同，实践表明一块芯片无法同时做好两件事 [24][25] - 第8代TPU由谷歌大模型Gemini参与共同设计 (Co-designed) [14][15] TPU 8t (训练芯片) 性能规格 - 整体计算性能是上一代Ironwood的近三倍，能将模型训练周期从数月缩短至数周 [8] - 单个超级芯片组 (Pod) 规模扩展至9,600个芯片，配备2PB共享高带宽内存，芯片间双向扩展带宽 (Bidirectional scale-up bandwidth) 从9.6 Tb/s 提升至19.2 Tb/s [21][22] - 总算力达到121 ExaFlops (FP4)，相比上一代Ironwood的42.5 ExaFlops有巨大提升 [21] - 存储访问速度提升10倍，配合TPUDirect数据直连提升利用率 [22] - 基于Virgo网络、JAX和Pathways实现近乎线性扩展，单一逻辑集群可延伸至百万级芯片规模 [22] - 通过实时遥测、自动故障链路绕过 (ICI) 和光路交换 (OCS) 等机制，在超大规模下有效吞吐目标最高可达97% [22] TPU 8i (推理芯片) 性能规格 - 在成本不变的情况下，服务能力接近翻倍，每美元性能提升约80% [8][23] - 单个Pod规模从256个芯片大幅扩展至1,152个芯片 [24] - 总算力达到11.6 ExaFlops (FP8)，相比上一代Ironwood的1.2 ExaFlops有显著提升 [24] - 每个Pod的总高带宽内存 (HBM) 容量从49.2TB提升至331.8TB [24] - 芯片间双向扩展带宽同样从9.6 Tb/s 翻倍至19.2 Tb/s [24] - 公司为降低延迟，几乎从底层重做了整套推理栈 [23] 能效与散热技术 - 采用第四代液冷技术，第8代TPU的每瓦性能比上一代Ironwood提升了近两倍 [5][40] - 优化范围从芯片本身扩展到整条链路，包括CPU、TPU、网络及整个数据中心，全部围绕“省电”重做 [33] - 将网络连接直接集成进计算芯片，减少节点间数据搬运以节省能耗 [34] - 配合统一的电源管理，根据实时负载动态调功，优先分配电力给最关键的计算环节 [36] - 数据中心与TPU协同设计，供电、调度、散热全部重新打磨，配合液冷技术支撑更高功率密度 [37][38] - 在数据中心层面，单位电力能提供的算力在过去五年已提升6倍 [41] 全栈协同与系统优化 - 首次与谷歌自研的CPU (Axion) 搭档，可按AI任务需求定制CPU与TPU的配合方式，榨干每瓦电性能 [29][30] - 内存方面，将288GB高带宽内存和384MB片上SRAM塞进芯片，片上SRAM容量是上一代的3倍，以缓解“内存墙”问题 [31] - 系统效率方面，引入自研Axion CPU架构，将每台服务器的CPU主机数量翻倍，并通过NUMA进行隔离优化 [31] - 针对主流MoE混合专家模型，将互连带宽提升至19.2 Tb/s，并用新的Boardfly架构将网络“路径长度”砍掉一半以上 [31] - 新增片上集体加速引擎 (CAE)，将原本需跨芯片的全局操作移至芯片内部，使整体延迟最高可降低至原来的1/5 [31] 开发者支持与生态 - 公司将全栈能力打包提供给开发者，TPU 8t和8i原生支持PyTorch、JAX、vLLM等主流框架，同时提供裸机访问 [42] - 配合MaxText、Tunix等开源工具，进一步打通从模型训练到上线部署的路径 [43] 市场反应与竞争背景 - 第8代TPU发布后，其母公司Alphabet股价盘中最高涨幅达2.2%，显示出资本市场的初步认可 [11] - 预计两款芯片将在今年晚些时候正式上市 [13] - 文章提及英伟达首席执行官黄仁勋认为TPU没有威胁，因其专注于特定赛道，而英伟达提供覆盖AI、数据处理、科学计算等全场景的加速计算体系 (如CUDA生态) [48][49][50] - 随着AI吞噬越来越多算力需求，TPU的重要性正在被重新评估 [52]