TPU v4 - 财报，业绩电话会，研报，新闻

TPU v4

搜索文档

理想TOP2· 2026-03-30 16:31

文章核心观点 - 理想汽车即将发布的M100芯片相关论文入选ISCA Industry Track，这比在ICCV等主流AI顶会发表论文更具含金量，因为ISCA Industry Track录取标准严苛，强调工业界主导和真实量产成果，是衡量芯片研发实力的硬门槛 [1] ISCA Industry Track 会议价值与门槛 - ISCA Industry Track自2020年起设立独立评审委员会，每年仅录取4至6篇论文，要求第一作者必须来自工业界，且研究成果必须是真实量产或准量产成果，门槛极高 [1] - 相比之下，ICCV等主流AI顶会每年录用论文数量达两三千篇，对于理想这类体量的公司，在头部会议Main Track发表多篇论文是“认真做就能做到的事” [1] - 理想M100芯片的论文预计将在2026年4月上传至arXiv，其Camera-Ready版本截止日期为2026年5月9日 [1] 历年ISCA Industry Track入选论文分析 - **IBM**：多次入选，成果涵盖处理器数据压缩加速器、高频分支预测器及AI增强的能效提升，均应用于POWER9、z15、POWER10等企业级处理器，显著降低了存储成本并提升了大型机处理效率 [3][4] - **三星**：入选论文涉及移动SoC CPU微架构演进、稀疏感知可重构NPU架构以及基于商用DRAM的存内计算技术，提升了移动端SoC的单核性能与AI能效，并尝试商业化突破“存储墙” [3][4] - **AMD**：其关于Chiplet技术的论文解析了EPYC和Ryzen处理器家族的设计，这项技术改变了半导体行业，使Chiplet成为高性能芯片设计的主流 [4] - **谷歌**：分享了TPUv4i的关键设计教训，被广泛引用为AI芯片设计指南；TPU v4论文介绍了采用光重构技术的超算系统，奠定了其在大模型时代的算力领先地位 [4][8] - **阿里巴巴**：推出了高性能64位RISC-V处理器玄铁910，是RISC-V生态的里程碑；另有关基于FPGA的云端安全任务卸载系统Fidas，提升了云基础设施的安全性与性能 [3][6] - **Meta**：入选论文数量多且迭代快，涵盖针对推荐系统的自研AI推理芯片MTIA及其第二代MTIA v2、大规模推荐模型训练的软硬件协同设计、Llama 3训练的扩展经验以及数据中心性能基准测试套件DCPerf，展现了其快速进入并深耕自研芯片领域的能力 [6][8][10] - **英伟达**：介绍了其PTX内存一致性模型的混合代理扩展，为GPU编程提供了更精细的内存控制能力 [6] - **DeepSeek**：其论文深入解析了DeepSeek-V3大模型的训练挑战及对AI硬件架构的思考，展现了国产大模型的全球影响力，并为行业提供了稀疏激活架构的深度实践 [10]

AI算力竞赛升级，谷歌发布下代Ironwood TPU架构，性能暴增16倍，单芯片算力达4614 TFLOPs

华尔街见闻· 2025-08-25 20:42

核心观点 - AI基础设施军备竞赛升级谷歌发布第七代TPU架构Ironwood 单芯片算力达4614 TFLOPs 较TPU v4提升超16倍较TPU v5p提升近10倍 [1][5] - Ironwood是完整系统级解决方案包含芯片机架网络互连和冷却系统展示全栈能力 [4] 性能规格 - 单芯片峰值算力4614 TFLOPs 配备192 GB HBM 带宽7.4 TB/s [5] - TPU v4单芯片算力275 TFLOPs 配备32 GB HBM 带宽1.2 TB/s [5] - TPU v5p单芯片算力459 TFLOPs 配备95 GB HBM 带宽2.8 TB/s [5] - 超级计算集群规模扩大 Ironwood Superpod包含9216颗芯片 [8] 系统架构 - 四颗Ironwood SoC芯片集成于PCBA主板 [11] - 16个PCBA主板堆叠构成64颗芯片的机架采用4x4x4 3D环面网络拓扑 [14] - 专有芯片间互连技术混合PCB走线铜缆和光纤链路 [14] - 最多连接43个计算单元形成集群网络带宽达1.8 Petabytes [14] 能源与冷却 - 单个满载机架功耗超100千瓦 [17] - 配备高效液体冷却系统包括冷却剂分配CBU机架和防滴漏监测盘 [17] - 采用416伏交流电输入通过整流器转换为直流供电 [17]