LPU会带来哪些增量

LPU技术及AI推理市场分析纪要总结一、涉及的公司与行业 * 公司：Groq（已被NVIDIA收购）、NVIDIA[1][2][7]、三星电子[1][7] * 行业：AI芯片（推理芯片）、半导体制造与封装、数据中心基础设施[1][7][8][9] 二、 LPU的核心观点与独特设计 * 核心定位：LPU是一种专为AI推理，特别是语言模型推理设计的处理器，核心解决Decode环节的内存密集型瓶颈[1] * 硬件设计：采用片内集成大量SRAM替代片外HBM，实现近存计算，大幅缩短数据传输距离以克服延迟瓶颈[1][2] * 软件设计：采用编译器预调度模式，编译器预先计算并安排每个时钟周期的数据位置与计算操作，节省了传统GPU中指令调度单元的面积，将更多空间用于集成SRAM[2] * 设计理念：追求极致确定性，更接近为特定模型定制的ASIC[1][4] 三、 LPU与GPU/TPU的对比及市场定位 * 与GPU对比：GPU侧重通用性，依赖片外HBM，在处理高频读取的推理任务时存在时间开销；LPU则通过片上SRAM和编译器优化在低时延推理上具备代差优势[1][4] * 与TPU对比：TPU侧重矩阵乘法效率，其脉动阵列架构在加载参数后无需频繁访问内存；LPU则针对语言处理中的序列生成进行了优化[1][4] * 芯片布局差异：LPU的片上存储面积占比较大，而GPU和TPU将更多面积分配给了计算单元[4] * 市场应用：LPU主要适用于参数和架构相对确定的模型推理，单一部署有难度，更适合与通用GPU结合使用以实现优势互补[2][3] 四、 AI推理的“PD分离”趋势及硬件需求 * Prefill环节：负责一次性处理完整用户指令，具有高并行、大batch size特点，是计算密集型过程，核心瓶颈在于算力，对KV Cache缓存大小和低延迟依赖性相对较小[4][5] * Decode环节：负责逐个生成token，是串行运算过程，需要频繁读取历史KV Cache，对读取延迟极为敏感，是内存密集型过程，核心瓶颈在于内存带宽和数据调度效率[4][5] * 硬件匹配：Prefill环节适用高算力芯片（如采用GDDR的CPX产品），Decode环节则适合采用SRAM架构以降低延迟的LPU[1][5] 五、 NVIDIA的战略布局与收购背景 * 收购背景：NVIDIA于2026年初以200亿美元收购Groq，着眼于推理侧市场崛起，应对AI模型调用量与年度经常性收入的增长趋势[2] * 存储技术多元化布局： * SRAM：通过收购Groq发展LPU，专注解决需要极致低延迟的近存计算场景[1][6][7] * HBM：在旗舰GPU产品线持续升级，未来将采用HBM4，以满足高性能计算和训练需求[1][7] * DRAM：在CPX等产品上采用GDDR，为计算密集型任务提供高性价比解决方案[1][7] * SSD：正在探索独立的存储机柜方案，专门用于存储KV缓存等数据[1][7] 六、 LPU的局限性 * 成本高昂：SRAM成本远高于DRAM，且大模型推理需多芯片堆叠，进一步推高初始成本[2] * 灵活性不足：软件栈是为特定模型预先设计的，应对不同模型架构迭代或变化时的灵活性不足[2][3] 七、产业链增量与技术进步 * 制造与产能：Groq在2025年委托三星电子的晶圆代工订单从约9,000片增加到1.5万片，产业化进程加速[1][7] * SRAM技术：可能向3D堆叠或分层管理等方向发展[1][8] * 封装与PCB：芯片封装技术演进（如背部供电设计）可能导致PCB层数增加或采用新材料；LPU的集成方式（3D-SoIC、2.5D CoWoS或独立模块）将对PCB及其上游材料提出新要求[8] * 高速互联：LPU系统内部的高速互联需求可能会催生新的Switch产品，根据集成方案不同可能会采用新的芯片架构（如FPGA）[9] * 散热方案：随着系统集成度和功耗提升，液冷解决方案的需求预计将增加[1][9]