TSP 架构 - 财报，业绩电话会，研报，新闻

TSP 架构

搜索文档

财通证券· 2026-03-16 14:45

报告行业投资评级 - 行业投资评级为“看好”，并予以“维持” [2] 报告核心观点 - LPU是专为大模型推理阶段设计的新型芯片架构，其核心在于TSP架构，该架构将经典的处理器五级流水线拆散在整个芯片内，消除了硬件复杂性，使指令执行顺序和时间具有确定性，实现了软件定义硬件 [3] - LPU具备更快的内存带宽，可缩短大模型推理过程中的延迟，提高用户体验感，同时还能提供更具性价比的价格 [7] - Tokens消耗量大幅增长，带动推理芯片市场规模高增长，LPU具备广阔的潜在发展空间，目前已步入量产初期 [7] - 投资建议看好LPU的高成长性及LPU以机柜出货形式带来的PCB机会，建议关注智微智能、星宸科技、沪电股份、胜宏科技、深南电路等公司 [7] 根据目录总结 1 LPU面向大模型推理阶段，TSP架构为核心 - LPU是一款专用于大模型推理阶段的定制芯片，由Groq公司推出，旨在通过架构创新优化语言模型的推理效率 [11] - LPU采用14nm制程工艺，集成了230MB容量的SRAM，片上内存带宽高达80TB/s，其整型（8位）运算速度为750TOPs，浮点（16位）运算速度为188TFLOPs [14] - LPU的核心是TSP架构，该架构包含五大功能切片：MXM（矩阵运算）、SXM（矢量移位/旋转）、MEM（内存读写）、VXM（向量算术运算）和ICU（指令控制单元） [17] - TSP架构将经典的处理器五级流水线拆散在整个芯片内，指令垂直下发，数据水平流动，消除了硬件复杂性，使指令执行顺序和时间具有确定性 [22][26] - TSP架构实现了软件定义硬件，编译器可以直接访问并精确控制芯片的底层硬件状态，从指令调度、数据流控制、存储管理三个维度定义芯片行为 [30][32] - Groq的系统架构由GroqChip、GroqCard、GroqNode、GroqRack构成，单节点内采用Fullmesh拓扑，单机柜内采用Dragonfly拓扑 [32][36] 2 LPU可缩短大模型推理过程中的延迟，提高用户体验感 - 大模型推理过程分为Prefill（预填充）和Decode（解码）两个阶段，Decode阶段是逐个生成Token的顺序过程 [42] - 衡量大模型推理性能的关键指标包括延迟、吞吐量和利用率，其中延迟与用户体验感紧密挂钩，决定了用户感知模型生成输出的速度 [51][54] - 大模型推理过程中90%以上的时间耗费在Decode阶段，其核心瓶颈在于内存带宽，而非计算峰值 [61] - LPU采用SRAM作为存储介质，解决了大模型推理阶段面临的内存带宽受限问题，其理论带宽约80TB/s，远高于采用HBM3e（8TB/s带宽）的NVIDIA B200芯片 [62][63] - 基于LPU的大模型具有更快的推理速度，例如Groq推出的Mixtral 8×7B Instruct API每秒可处理约430个Token，且每百万Token的价格仅为0.27美元，性价比突出 [64] 3 LPU具备广阔潜在发展空间，已步入量产初期 - Tokens消耗量大幅增长，带动推理芯片市场规模高增长：2024年初中国日均Token消耗量为1000亿，2025年中突破30万亿，2026年2月主流大模型合计日均Token消耗已达180万亿级别 [69] - 据QYResearch数据，2024年全球推理AI芯片市场规模约为142.1亿美元，预计2031年将达到690.1亿美元，2025-2031年CAGR为25.7% [69] - 据星宸科技，2026年全球AI芯片市场规模预计达2800亿美元，其中推理芯片占比52%，规模约1450亿美元，年复合增速超50% [70] - 海外方面，Groq已进入量产初期，其第一代LPU（14nm）已量产，第二代LPU（三星4nm）计划于2025年全面量产，并与英伟达签订了非独家推理技术许可协议 [71][73][74] - 国内方面，元川微为LPU架构先行者，已推出面向大模型、多模态和端侧应用场景的Mountain、River两大系列LPU+产品 [74] 4 投资建议 - 报告认为LPU受益于低推理延时的优异表现，有望在推理芯片市场实现快速渗透 [7] - 看好LPU的高成长性以及LPU以系统架构（机柜）出货形式所带来的PCB相关投资机会 [75] - 建议关注的公司包括：智微智能（参股元川微）、星宸科技（多轮增资元川微）、沪电股份（英伟达PCB供应商）、胜宏科技（英伟达PCB供应商）、深南电路（英伟达PCB供应商） [4][7][75]