TPU v4
搜索文档
理想这次入选的ISCA Industry Track门槛真挺高的
理想TOP2· 2026-03-30 16:31
文章核心观点 - 理想汽车即将发布的M100芯片相关论文入选ISCA Industry Track,这比在ICCV等主流AI顶会发表论文更具含金量,因为ISCA Industry Track录取标准严苛,强调工业界主导和真实量产成果,是衡量芯片研发实力的硬门槛 [1] ISCA Industry Track 会议价值与门槛 - ISCA Industry Track自2020年起设立独立评审委员会,每年仅录取4至6篇论文,要求第一作者必须来自工业界,且研究成果必须是真实量产或准量产成果,门槛极高 [1] - 相比之下,ICCV等主流AI顶会每年录用论文数量达两三千篇,对于理想这类体量的公司,在头部会议Main Track发表多篇论文是“认真做就能做到的事” [1] - 理想M100芯片的论文预计将在2026年4月上传至arXiv,其Camera-Ready版本截止日期为2026年5月9日 [1] 历年ISCA Industry Track入选论文分析 - **IBM**:多次入选,成果涵盖处理器数据压缩加速器、高频分支预测器及AI增强的能效提升,均应用于POWER9、z15、POWER10等企业级处理器,显著降低了存储成本并提升了大型机处理效率 [3][4] - **三星**:入选论文涉及移动SoC CPU微架构演进、稀疏感知可重构NPU架构以及基于商用DRAM的存内计算技术,提升了移动端SoC的单核性能与AI能效,并尝试商业化突破“存储墙” [3][4] - **AMD**:其关于Chiplet技术的论文解析了EPYC和Ryzen处理器家族的设计,这项技术改变了半导体行业,使Chiplet成为高性能芯片设计的主流 [4] - **谷歌**:分享了TPUv4i的关键设计教训,被广泛引用为AI芯片设计指南;TPU v4论文介绍了采用光重构技术的超算系统,奠定了其在大模型时代的算力领先地位 [4][8] - **阿里巴巴**:推出了高性能64位RISC-V处理器玄铁910,是RISC-V生态的里程碑;另有关基于FPGA的云端安全任务卸载系统Fidas,提升了云基础设施的安全性与性能 [3][6] - **Meta**:入选论文数量多且迭代快,涵盖针对推荐系统的自研AI推理芯片MTIA及其第二代MTIA v2、大规模推荐模型训练的软硬件协同设计、Llama 3训练的扩展经验以及数据中心性能基准测试套件DCPerf,展现了其快速进入并深耕自研芯片领域的能力 [6][8][10] - **英伟达**:介绍了其PTX内存一致性模型的混合代理扩展,为GPU编程提供了更精细的内存控制能力 [6] - **DeepSeek**:其论文深入解析了DeepSeek-V3大模型的训练挑战及对AI硬件架构的思考,展现了国产大模型的全球影响力,并为行业提供了稀疏激活架构的深度实践 [10]
AI算力竞赛升级,谷歌发布下代Ironwood TPU架构,性能暴增16倍,单芯片算力达4614 TFLOPs
华尔街见闻· 2025-08-25 20:42
核心观点 - AI基础设施军备竞赛升级 谷歌发布第七代TPU架构Ironwood 单芯片算力达4614 TFLOPs 较TPU v4提升超16倍 较TPU v5p提升近10倍 [1][5] - Ironwood是完整系统级解决方案 包含芯片 机架 网络互连和冷却系统 展示全栈能力 [4] 性能规格 - 单芯片峰值算力4614 TFLOPs 配备192 GB HBM 带宽7.4 TB/s [5] - TPU v4单芯片算力275 TFLOPs 配备32 GB HBM 带宽1.2 TB/s [5] - TPU v5p单芯片算力459 TFLOPs 配备95 GB HBM 带宽2.8 TB/s [5] - 超级计算集群规模扩大 Ironwood Superpod包含9216颗芯片 [8] 系统架构 - 四颗Ironwood SoC芯片集成于PCBA主板 [11] - 16个PCBA主板堆叠构成64颗芯片的机架 采用4x4x4 3D环面网络拓扑 [14] - 专有芯片间互连技术混合PCB走线 铜缆和光纤链路 [14] - 最多连接43个计算单元形成集群 网络带宽达1.8 Petabytes [14] 能源与冷却 - 单个满载机架功耗超100千瓦 [17] - 配备高效液体冷却系统 包括冷却剂分配CBU机架和防滴漏监测盘 [17] - 采用416伏交流电输入 通过整流器转换为直流供电 [17]