Nvidia-英伟达不再独霸？谷歌AI芯片算力追平B200

文章核心观点谷歌在 Google Cloud Next 25 大会推出第七代 TPU---Ironwood，这是专为支持大规模思考和 AI 推理模型设计的高性能芯片，标志着人工智能发展基础设施的转变，具备诸多优势且有应用计划 [1][3] 分组1：芯片基本信息 - 4 月 9 日谷歌在拉斯维加斯举办的 Google Cloud Next 25 大会推出第七代 TPU---Ironwood，是迄今性能最强的 TPU [1] - TPU 是 2015 年谷歌首次提出、2016 年正式发布的专为加速深度学习任务设计的人工智能芯片 [3] 分组2：芯片意义与需求 - Ironwood 推出标志人工智能及其发展基础设施从响应式人工智能模型到主动生成洞察和解读模型的转变 [3] - 推理时代 Agent 需主动检索和生成数据，实现这点需要满足巨大计算和通信需求的芯片及软硬协同设计 [3] 分组3：芯片性能参数 - Ironwood 最高配集群有 9216 个液冷芯片，峰值算力 42.5 ExaFlops（每秒运算 42500000000000000000 次） [3] - 是谷歌首款在张量核心和矩阵数学单元中支持 FP8 计算的 TPU，FP8 算力 4614 TFlops 略高于英伟达 B200，内存带宽 7.2TBps 略低于 B200 [5] - 芯片中第三代 SparseCore 加速器编码算法可加速金融和科学计算，最初设计用于加速推荐模型 [5] - 每瓦性能是第六代 TPU Trillium 的两倍，每芯片容量 192 GB 是 Trillium 的 6 倍，能处理更大模型和数据集 [6] 分组4：芯片对比数据 | | TPU v4 | TPU v5p | Ironwood | | --- | --- | --- | --- | | 推出年份 | 2022 | 2023 | 2025 | | Pod Size (chips) | 4896 | 8960 | 9216 | | HBM Bandwidth/ | 32 GB | 95 GB | 192 GB | | Capacity | @ 1.2 TBs HBM | @ 2.8 TBs HBM | @ 7.4 TBs HBM | | Peak Flops per chip | 275 TFLOPS | 459 FLOPS | 4614 TFLOPS | [6] 分组5：芯片应用情况 - 谷歌计划将 TPU v7 整合到谷歌云 AI 超算，支持推荐算法、Gemini 模型以及 AlphaFold 等业务 [6] - OpenAI 联合创始人 AI 初创公司 Safe Superintelligence 利用 Google Cloud 的 TPU 芯片支持 AI 研究 [7]