Groq LPX推理机架 - 财报，业绩电话会，研报，新闻

Groq LPX推理机架

搜索文档

SemiAnalysis GTC深度解读：三款新系统背后，英伟达正在重新定义AI基础设施的边界

华尔街见闻· 2026-03-24 21:01

英伟达战略转型与新产品发布 - 在GTC 2026大会上，英伟达推出三款全新系统——Groq LPX推理机架、Vera ETL256 CPU机架与STX存储参考架构，标志着公司正从GPU供应商向全栈AI基础设施平台商演进，其产品版图向低延迟推理、CPU编排与存储层全面延伸[1][2] Groq LPX推理系统 - Groq LPX是英伟达以**200亿美元**完成对Groq知识产权授权与核心团队引进后，不到四个月内推出的首款产品化成果[1] - 该系统将Groq的LP30芯片与英伟达GPU深度整合，并引入“注意力与前馈网络解耦”（AFD）技术，旨在高交互推理场景中压缩解码延迟[1] - LPX机架由32个2U计算托盘与2台Spectrum-X交换机构成，每个计算托盘搭载**16块LP30芯片**、**2块Altera FPGA**、**1颗Intel Granite Rapids CPU**及**1块BlueField-4前端模块**，整个机架的规模扩展带宽总计约**640TB/s**[9] - 机架采用液冷设计，包含**2个1U 90kW电源架**，计算托盘以“腹对腹”方式安装于PCB板两侧以实现全互联[9][10] LP30芯片技术细节 - LP30芯片采用三星SF4工艺，配备**500MB片上SRAM**，在FP8精度下算力为**1.2 PFLOPS**，相较于Groq第一代LPU（**230MB SRAM**，**750 TFLOPS INT8**）实现大幅提升[3] - 该芯片以单一整体裸片形式存在，无需先进封装，且SF4工艺不挤占英伟达在台积电N3上的稀缺产能，也不消耗HBM资源，代表增量产能与收入[3] LPU架构价值与AFD技术 - LPU架构的核心优势在于高带宽SRAM与确定性流水线执行机制，在单用户低延迟场景下具备GPU难以企及的首token生成速度，但在大规模token服务上吞吐量弱于GPU[4] - AFD技术将大模型推理中的注意力计算与前馈网络计算拆分至不同硬件：GPU处理涉及动态KV Cache的注意力计算，LPU则承担无状态、可静态调度的FFN计算[7] - 在此框架下，GPU的HBM容量得以充分释放用于KV Cache，提升系统可并发处理的token总量，而LPU发挥其低延迟优势，两者通过All-to-All集合通信与乒乓流水线方式协作[7] - LPU还可在投机解码框架中部署草稿模型，通常可将每次解码步骤的输出token数提升至**1.5至2倍**[7] Vera ETL256 CPU系统 - 随着AI工作负载对数据预处理、调度编排和强化学习验证的需求攀升，CPU正成为制约GPU利用率的新瓶颈[11] - Vera ETL256系统将**256颗Vera CPU**集成于单一液冷机架，通过铜缆拓扑实现机架内全互联，旨在消除对光收发器的需求以节约成本[12] - 机架由32个计算托盘构成，以4个1U MGX ETL交换托盘为中轴对称排列，每个计算托盘承载**8颗Vera CPU**，机架内网络采用Spectrum-X多平面拓扑实现全互联[12] STX存储参考架构 - STX是英伟达发布的存储参考机架架构，与此前推出的CMX上下文存储平台配套，共同构成公司向存储基础设施层渗透的完整布局[14] - 该架构精确规定了一个集群中需要配置的磁盘驱动器、Vera CPU、BF-4 DPU、CX-9网卡和Spectrum-X交换机的数量[14] - 每个STX机箱内含**2个BF-4单元**，合计**2颗Vera CPU**、**4块CX-9网卡**和**4个SOCAMM模块**；整个STX机架共**16个机箱**，对应**32颗Vera CPU**、**64块CX-9网卡**和**64个SOCAMM**[14] - 英伟达点名包括DDN、Dell、HPE、IBM、NetApp、Supermicro及VAST Data在内的一批主要存储厂商将支持STX标准[14] 行业影响与竞争格局 - 三款新系统共同表明英伟达的战略触角已覆盖推理优化、CPU密度、存储编排等此前由其他厂商主导的领域，这将深刻影响整个AI硬件供应链的竞争格局[2] - BlueField-4、CMX与STX的组合，代表英伟达在完成算力层与网络层的主导地位后，正系统性地向存储层、软件层和基础设施运营层推进[16] - 三款系统合力拓宽了英伟达的产品护城河，意味着AI基础设施供应链中更大比例的市场份额将持续向英伟达集中[16]