一颗芯片的新战争
半导体行业观察·2025-10-07 10:21

文章核心观点 - AI推理芯片市场竞争加剧,成为AI下半场商业化关键,市场规模预计2028年达1500亿美元,年复合增长率超40% [3] - 华为、英伟达、谷歌三大巨头及初创公司Groq相继发布推理芯片,竞争焦点从原始算力转向成本、能效、软件生态和应用场景的综合较量 [3][5][10][25][28] 华为Ascend 950PR - 华为宣布昇腾芯片规划,未来3年将推出950、960、970系列,目标算力一年一代翻倍 [3] - Ascend 950PR专攻推理Prefill阶段和推荐业务,采用自研低成本HBM(HiBL 1.0),预计2026年一季度面世 [3] - 芯片采用同一Die设计,低成本HBM策略可解决HBM供给紧缺并降低总成本(内存成本占推理支出40%以上) [3][4] - 互联带宽相比Ascend 910C提升2.5倍,达2TB/s,支持低精度数据格式如FP8,算力达1P和2P [6] 英伟达Rubin CPX - 英伟达推出专为大规模上下文设计的GPU Rubin CPX,预计2026年底上市,标志公司向推理市场延伸 [5][8] - 单机架算力达8 Exaflops,较GB300 NVL72提升7.5倍,配备100TB快速内存和1.7PB/s带宽 [5] - 芯片针对百万Token级上下文,峰值算力30 Petaflops,内存128GB GDDR7,系统专注力提升3倍 [8] - 支持NVFP4精度,集成视频编解码器,旨在解决AI Agent长上下文瓶颈(80%AI应用将涉及多模态长序列处理) [8][9] 谷歌Ironwood TPU - 谷歌推出第七代TPU推理芯片Ironwood,以应对内部推理请求量激增(2024年4月至2025年4月令牌使用量增长50倍) [10][13] - 提供256芯片和9,216芯片两种配置,后者总算力42.5 Exaflops,是El Capitan超算的24倍;单芯片峰值算力4.614 Exaflops [15] - 功率效率为Trillium的1.5倍,每瓦性能翻倍,较首代TPU提升30倍;单芯片内存带宽7.37 TB/s,容量192 GB,为Trillium的6倍 [17][20] - 通过光路交换机(OCS)互连集群,提供1.77 PB HBM内存容量,支持动态重构和故障修复,软件栈支持PyTorch和JAX [20][21] - 软硬件协同优化可帮助客户降低推理延迟高达96%,吞吐量提高40%,每个令牌成本降低多达30% [24] Groq推理芯片初创公司 - Groq在2025年9月融资7.5亿美元,估值从2021年10亿美元跃升至69亿美元,投资者包括Disruptive、三星、思科等 [25] - 公司计划到2025年第一季度部署超108,000个LPU(14纳米),已获沙特阿拉伯15亿美元订单和贝尔加拿大独家合作 [26] - LPU采用张量流架构,单大核心设计,延迟比GPU低10倍,内存带宽优势达10倍,适合实时AI推理 [27] 行业趋势与竞争格局 - AI推理市场增长速度快于训练市场(推理年复合增长率40% vs 训练20%),支撑智能推荐、内容生成等实时应用需求 [3] - 推理阶段是实现AI商业化的关键,芯片竞争围绕成本控制(如华为HBM策略)、能效提升(如谷歌TPU)和长上下文处理(如英伟达)展开 [3][4][8][17][28]