Workflow
电子:谷歌Ironwood构建AI推理工厂,与Blackwell形成差异化竞争
海通国际·2025-04-10 20:23

报告行业投资评级 未提及 报告的核心观点 - 谷歌发布第七代张量处理单元TPU v7(代号Ironwood),其性能与能效较前代提升两倍,专为大模型推理任务优化 [1][6] - 谷歌通过Ironwood强化AI芯片布局,借推理优势提升云服务吸引力,采用“硬件 + 云服务”绑定策略抢占推理领域先机 [2][8] - TPU v7专注推理,与NVIDIA的Blackwell架构存在本质差异,TPU v7集群像“AI推理工厂”,Blackwell架构像“高端AI工厂” [3][4] 根据相关目录分别进行总结 事件 - 2025年4月9日,谷歌在Cloud Next大会上正式发布第七代张量处理单元TPU v7(代号Ironwood),性能与能效较前代提升两倍,针对大模型推理任务深度优化 [1][6] 点评 - Ironwood集群跻身全球最快推理平台,最多支持9,216颗TPU芯片组成集群,峰值算力达42.5 ExaFLOPS,延续并加强SparseCore、HBM高带宽内存及芯片间光互联(ICI)设计,专为运行大型语言模型(LLM)与专家混合模型(MoE)优化 [1][7] - 谷歌推出AI芯片Ironwood,持续加码与NVIDIA等竞争对手的芯片竞赛,Ironwood仅用于Google内部或通过其云服务对客户开放,未向市场直接销售,当前行业发展趋势向推理侧倾斜,谷歌通过“硬件 + 云服务”绑定策略增强云服务吸引力,带动云业务增长 [2][8] Google TPU与NVIDIA Blackwell架构对比分析 | 算力维度 | Google TPU v7 (Ironwood ) | NVIDIA Blackwell ( B200 / GB200 ) | | --- | --- | --- | | 单颗算力 | 理论均摊值约为5PFLOPS | B200: 20 PFLOPS(FP4 AI算力) | | 集群规模 | 9,216颗TPU构建一个完整的Ironwood集群 | NVL72: 72颗GB200组成一机架集群 | | 集群算力 | 42.5 ExaFLOPS | 1.44 ExaFLOPS ( GB200 NVL72系统 ) | | Al推理 | 支持bfloat16、INT8高性能低精度推理 | 支持FP4 / FP8的低精度推理,Al加速模块专为Transformer优化 | | Al训练 | 可用于部分训练任务,但主要优化为推理用途 | 完整支持训练与推理,尤其擅长大模型训练(如GPT - 5、XAI等) | - TPU v7以推理为核心任务,仅在Google Cloud内部部署,支持Gemini等大模型的商业化运行;Blackwell架构提供从FP4到FP64的完整精度支持,兼顾训练与推理,面向通用AI应用,可广泛部署于AWS、Azure等商用云平台 [3][10] - TPU v7集群可提供高达42.5 ExaFLOPS的峰值推理性能,折算单颗TPU约为4.61 PFLOPS;NVIDIA GB200单卡推理算力达到20 PFLOPS(FP4),其NVL72整机架系统最高可实现1.44 ExaFLOPS。TPU在总算力上有优势,但NVIDIA在精度灵活性、商业可获得性、开发者生态方面领先,具备更广泛的应用适配性 [4][11]