LPU会带来哪些增量
英伟达英伟达(US:NVDA)2026-03-12 17:08

LPU技术及AI推理市场分析纪要总结 一、 涉及的公司与行业 * 公司:Groq(已被NVIDIA收购)、NVIDIA[1][2][7]、三星电子[1][7] * 行业:AI芯片(推理芯片)、半导体制造与封装、数据中心基础设施[1][7][8][9] 二、 LPU的核心观点与独特设计 * 核心定位:LPU是一种专为AI推理,特别是语言模型推理设计的处理器,核心解决Decode环节的内存密集型瓶颈[1] * 硬件设计:采用片内集成大量SRAM替代片外HBM,实现近存计算,大幅缩短数据传输距离以克服延迟瓶颈[1][2] * 软件设计:采用编译器预调度模式,编译器预先计算并安排每个时钟周期的数据位置与计算操作,节省了传统GPU中指令调度单元的面积,将更多空间用于集成SRAM[2] * 设计理念:追求极致确定性,更接近为特定模型定制的ASIC[1][4] 三、 LPU与GPU/TPU的对比及市场定位 * 与GPU对比:GPU侧重通用性,依赖片外HBM,在处理高频读取的推理任务时存在时间开销;LPU则通过片上SRAM和编译器优化在低时延推理上具备代差优势[1][4] * 与TPU对比:TPU侧重矩阵乘法效率,其脉动阵列架构在加载参数后无需频繁访问内存;LPU则针对语言处理中的序列生成进行了优化[1][4] * 芯片布局差异:LPU的片上存储面积占比较大,而GPU和TPU将更多面积分配给了计算单元[4] * 市场应用:LPU主要适用于参数和架构相对确定的模型推理,单一部署有难度,更适合与通用GPU结合使用以实现优势互补[2][3] 四、 AI推理的“PD分离”趋势及硬件需求 * Prefill环节:负责一次性处理完整用户指令,具有高并行、大batch size特点,是计算密集型过程,核心瓶颈在于算力,对KV Cache缓存大小和低延迟依赖性相对较小[4][5] * Decode环节:负责逐个生成token,是串行运算过程,需要频繁读取历史KV Cache,对读取延迟极为敏感,是内存密集型过程,核心瓶颈在于内存带宽和数据调度效率[4][5] * 硬件匹配:Prefill环节适用高算力芯片(如采用GDDR的CPX产品),Decode环节则适合采用SRAM架构以降低延迟的LPU[1][5] 五、 NVIDIA的战略布局与收购背景 * 收购背景:NVIDIA于2026年初以200亿美元收购Groq,着眼于推理侧市场崛起,应对AI模型调用量与年度经常性收入的增长趋势[2] * 存储技术多元化布局: * SRAM:通过收购Groq发展LPU,专注解决需要极致低延迟的近存计算场景[1][6][7] * HBM:在旗舰GPU产品线持续升级,未来将采用HBM4,以满足高性能计算和训练需求[1][7] * DRAM:在CPX等产品上采用GDDR,为计算密集型任务提供高性价比解决方案[1][7] * SSD:正在探索独立的存储机柜方案,专门用于存储KV缓存等数据[1][7] 六、 LPU的局限性 * 成本高昂:SRAM成本远高于DRAM,且大模型推理需多芯片堆叠,进一步推高初始成本[2] * 灵活性不足:软件栈是为特定模型预先设计的,应对不同模型架构迭代或变化时的灵活性不足[2][3] 七、 产业链增量与技术进步 * 制造与产能:Groq在2025年委托三星电子的晶圆代工订单从约9,000片增加到1.5万片,产业化进程加速[1][7] * SRAM技术:可能向3D堆叠或分层管理等方向发展[1][8] * 封装与PCB:芯片封装技术演进(如背部供电设计)可能导致PCB层数增加或采用新材料;LPU的集成方式(3D-SoIC、2.5D CoWoS或独立模块)将对PCB及其上游材料提出新要求[8] * 高速互联:LPU系统内部的高速互联需求可能会催生新的Switch产品,根据集成方案不同可能会采用新的芯片架构(如FPGA)[9] * 散热方案:随着系统集成度和功耗提升,液冷解决方案的需求预计将增加[1][9]