Groq LPX推理机架
搜索文档
SemiAnalysis GTC深度解读:三款新系统背后,英伟达正在重新定义AI基础设施的边界
华尔街见闻· 2026-03-24 21:01
英伟达战略转型与新产品发布 - 在GTC 2026大会上,英伟达推出三款全新系统——Groq LPX推理机架、Vera ETL256 CPU机架与STX存储参考架构,标志着公司正从GPU供应商向全栈AI基础设施平台商演进,其产品版图向低延迟推理、CPU编排与存储层全面延伸[1][2] Groq LPX推理系统 - Groq LPX是英伟达以**200亿美元**完成对Groq知识产权授权与核心团队引进后,不到四个月内推出的首款产品化成果[1] - 该系统将Groq的LP30芯片与英伟达GPU深度整合,并引入“注意力与前馈网络解耦”(AFD)技术,旨在高交互推理场景中压缩解码延迟[1] - LPX机架由32个2U计算托盘与2台Spectrum-X交换机构成,每个计算托盘搭载**16块LP30芯片**、**2块Altera FPGA**、**1颗Intel Granite Rapids CPU**及**1块BlueField-4前端模块**,整个机架的规模扩展带宽总计约**640TB/s**[9] - 机架采用液冷设计,包含**2个1U 90kW电源架**,计算托盘以“腹对腹”方式安装于PCB板两侧以实现全互联[9][10] LP30芯片技术细节 - LP30芯片采用三星SF4工艺,配备**500MB片上SRAM**,在FP8精度下算力为**1.2 PFLOPS**,相较于Groq第一代LPU(**230MB SRAM**,**750 TFLOPS INT8**)实现大幅提升[3] - 该芯片以单一整体裸片形式存在,无需先进封装,且SF4工艺不挤占英伟达在台积电N3上的稀缺产能,也不消耗HBM资源,代表增量产能与收入[3] LPU架构价值与AFD技术 - LPU架构的核心优势在于高带宽SRAM与确定性流水线执行机制,在单用户低延迟场景下具备GPU难以企及的首token生成速度,但在大规模token服务上吞吐量弱于GPU[4] - AFD技术将大模型推理中的注意力计算与前馈网络计算拆分至不同硬件:GPU处理涉及动态KV Cache的注意力计算,LPU则承担无状态、可静态调度的FFN计算[7] - 在此框架下,GPU的HBM容量得以充分释放用于KV Cache,提升系统可并发处理的token总量,而LPU发挥其低延迟优势,两者通过All-to-All集合通信与乒乓流水线方式协作[7] - LPU还可在投机解码框架中部署草稿模型,通常可将每次解码步骤的输出token数提升至**1.5至2倍**[7] Vera ETL256 CPU系统 - 随着AI工作负载对数据预处理、调度编排和强化学习验证的需求攀升,CPU正成为制约GPU利用率的新瓶颈[11] - Vera ETL256系统将**256颗Vera CPU**集成于单一液冷机架,通过铜缆拓扑实现机架内全互联,旨在消除对光收发器的需求以节约成本[12] - 机架由32个计算托盘构成,以4个1U MGX ETL交换托盘为中轴对称排列,每个计算托盘承载**8颗Vera CPU**,机架内网络采用Spectrum-X多平面拓扑实现全互联[12] STX存储参考架构 - STX是英伟达发布的存储参考机架架构,与此前推出的CMX上下文存储平台配套,共同构成公司向存储基础设施层渗透的完整布局[14] - 该架构精确规定了一个集群中需要配置的磁盘驱动器、Vera CPU、BF-4 DPU、CX-9网卡和Spectrum-X交换机的数量[14] - 每个STX机箱内含**2个BF-4单元**,合计**2颗Vera CPU**、**4块CX-9网卡**和**4个SOCAMM模块**;整个STX机架共**16个机箱**,对应**32颗Vera CPU**、**64块CX-9网卡**和**64个SOCAMM**[14] - 英伟达点名包括DDN、Dell、HPE、IBM、NetApp、Supermicro及VAST Data在内的一批主要存储厂商将支持STX标准[14] 行业影响与竞争格局 - 三款新系统共同表明英伟达的战略触角已覆盖推理优化、CPU密度、存储编排等此前由其他厂商主导的领域,这将深刻影响整个AI硬件供应链的竞争格局[2] - BlueField-4、CMX与STX的组合,代表英伟达在完成算力层与网络层的主导地位后,正系统性地向存储层、软件层和基础设施运营层推进[16] - 三款系统合力拓宽了英伟达的产品护城河,意味着AI基础设施供应链中更大比例的市场份额将持续向英伟达集中[16]