TSP 架构
搜索文档
LPU专题报告一:架构创新突破大模型推理延迟瓶颈,广阔市场空间有望快速放量
财通证券· 2026-03-16 14:45
报告行业投资评级 - 行业投资评级为“看好”,并予以“维持” [2] 报告核心观点 - LPU是专为大模型推理阶段设计的新型芯片架构,其核心在于TSP架构,该架构将经典的处理器五级流水线拆散在整个芯片内,消除了硬件复杂性,使指令执行顺序和时间具有确定性,实现了软件定义硬件 [3] - LPU具备更快的内存带宽,可缩短大模型推理过程中的延迟,提高用户体验感,同时还能提供更具性价比的价格 [7] - Tokens消耗量大幅增长,带动推理芯片市场规模高增长,LPU具备广阔的潜在发展空间,目前已步入量产初期 [7] - 投资建议看好LPU的高成长性及LPU以机柜出货形式带来的PCB机会,建议关注智微智能、星宸科技、沪电股份、胜宏科技、深南电路等公司 [7] 根据目录总结 1 LPU面向大模型推理阶段,TSP架构为核心 - LPU是一款专用于大模型推理阶段的定制芯片,由Groq公司推出,旨在通过架构创新优化语言模型的推理效率 [11] - LPU采用14nm制程工艺,集成了230MB容量的SRAM,片上内存带宽高达80TB/s,其整型(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs [14] - LPU的核心是TSP架构,该架构包含五大功能切片:MXM(矩阵运算)、SXM(矢量移位/旋转)、MEM(内存读写)、VXM(向量算术运算)和ICU(指令控制单元) [17] - TSP架构将经典的处理器五级流水线拆散在整个芯片内,指令垂直下发,数据水平流动,消除了硬件复杂性,使指令执行顺序和时间具有确定性 [22][26] - TSP架构实现了软件定义硬件,编译器可以直接访问并精确控制芯片的底层硬件状态,从指令调度、数据流控制、存储管理三个维度定义芯片行为 [30][32] - Groq的系统架构由GroqChip、GroqCard、GroqNode、GroqRack构成,单节点内采用Fullmesh拓扑,单机柜内采用Dragonfly拓扑 [32][36] 2 LPU可缩短大模型推理过程中的延迟,提高用户体验感 - 大模型推理过程分为Prefill(预填充)和Decode(解码)两个阶段,Decode阶段是逐个生成Token的顺序过程 [42] - 衡量大模型推理性能的关键指标包括延迟、吞吐量和利用率,其中延迟与用户体验感紧密挂钩,决定了用户感知模型生成输出的速度 [51][54] - 大模型推理过程中90%以上的时间耗费在Decode阶段,其核心瓶颈在于内存带宽,而非计算峰值 [61] - LPU采用SRAM作为存储介质,解决了大模型推理阶段面临的内存带宽受限问题,其理论带宽约80TB/s,远高于采用HBM3e(8TB/s带宽)的NVIDIA B200芯片 [62][63] - 基于LPU的大模型具有更快的推理速度,例如Groq推出的Mixtral 8×7B Instruct API每秒可处理约430个Token,且每百万Token的价格仅为0.27美元,性价比突出 [64] 3 LPU具备广阔潜在发展空间,已步入量产初期 - Tokens消耗量大幅增长,带动推理芯片市场规模高增长:2024年初中国日均Token消耗量为1000亿,2025年中突破30万亿,2026年2月主流大模型合计日均Token消耗已达180万亿级别 [69] - 据QYResearch数据,2024年全球推理AI芯片市场规模约为142.1亿美元,预计2031年将达到690.1亿美元,2025-2031年CAGR为25.7% [69] - 据星宸科技,2026年全球AI芯片市场规模预计达2800亿美元,其中推理芯片占比52%,规模约1450亿美元,年复合增速超50% [70] - 海外方面,Groq已进入量产初期,其第一代LPU(14nm)已量产,第二代LPU(三星4nm)计划于2025年全面量产,并与英伟达签订了非独家推理技术许可协议 [71][73][74] - 国内方面,元川微为LPU架构先行者,已推出面向大模型、多模态和端侧应用场景的Mountain、River两大系列LPU+产品 [74] 4 投资建议 - 报告认为LPU受益于低推理延时的优异表现,有望在推理芯片市场实现快速渗透 [7] - 看好LPU的高成长性以及LPU以系统架构(机柜)出货形式所带来的PCB相关投资机会 [75] - 建议关注的公司包括:智微智能(参股元川微)、星宸科技(多轮增资元川微)、沪电股份(英伟达PCB供应商)、胜宏科技(英伟达PCB供应商)、深南电路(英伟达PCB供应商) [4][7][75]