谷歌TPU与Gemini模型的崛起 - 谷歌使用其TPU基础设施训练出最强大模型Gemini 3,打破了由英伟达GPU在微软Azure上训练GPT系列的范式,标志着大模型、云和AI芯片在谷歌内部实现一体化整合[1] - 谷歌TPU的崛起对英伟达、微软及依赖英伟达GPU的企业构成竞争压力,市场开始更看好TPU+Gemini在性能和成本上的长期竞争优势胜过OpenAI[1] - 谷歌垂直整合的AI战略长期价值获巴菲特看好,成为其除苹果外投资的第二家科技企业及唯一一家AI企业[3] 谷歌AI战略的反攻与整合 - 2024年谷歌开始真正反击,通过合并DeepMind和谷歌大脑,由哈萨比斯担任CEO,并死磕Gemini模型,同时依靠TPU的迭代升级作为强大支撑[3] - 谷歌拥有比微软更强大的大模型训练和推理平台,2023年底发布的TPUv5p使训练大模型每刀效率提升2倍以上[4] - 谷歌使用TPU进行推理,无需像OpenAI和微软那样支付给英伟达70%的利润[5] TPU技术的迭代与性能突破 - 2024年底谷歌为Gemini 2推出代号Trallium的第六代TPU(TPUv6),建立10万张卡的算力集群,实现100%的训练和推理自由[6][7] - 2025年谷歌发布专为大规模AI推理设计的第七代TPU Ironwood,单个基于Ironwood的超节点纵向最多可容纳9216颗芯片,总算力达42.5 Exaflops,共享1.77PB HBM,每瓦性能是上一代Trillium的2倍[8][12] - TPUv7(Ironwood)在FP8精度下单芯片峰值算力达4,614万亿次浮点运算,与英伟达B200相当,单芯片HBM内存容量192GB,带宽7.2Tbps[8] TPU的商业化与生态系统扩展 - 谷歌正在开放自己的TPU市场,TPU已成为英伟达GPU之外的硬通货,OpenAI、Anthropic、苹果、xAI等顶尖模型厂商均已使用谷歌TPU[13] - 通过与Anthropic的百万TPU合同及与新云服务商、加密矿企的三方合作,谷歌将TPU体系从内部机房搬到第三方数据中心,提供了能与英伟达系统性竞争的替代品[18][19] - 谷歌在PyTorch原生后端、vLLM/SGLang集成等方面投入大量工程力量以弥补软件生态短板,但XLA编译器、运行时等开源方面仍需改进[20] 对AI行业格局的影响 - AI芯片和基础设施格局正从英伟达垄断向"一超多强"转变,英伟达高达75%左右的毛利率越来越难以维持[14][16] - AI软件时代的护城河正从模型延伸到基础设施,谷歌通过TPUv7和Gemini 3证明其在芯片、系统、网络和软件栈协同优化的能力[17] - 未来几年可能形成"多极算力世界",英伟达、谷歌、亚马逊、AMD及云厂商自研芯片将在不同负载和商业模式下竞争[21]
ChatGPT3周年之后,TPU改变了AI竞争,正在从模型转向基础设施