Workflow
注意力前馈神经网络解聚(AFD)技术
icon
搜索文档
英伟达的推理芯片局
半导体行业观察· 2026-03-25 08:40
文章核心观点 文章详细解读了英伟达在2026年GTC大会上发布的一系列新产品、技术路线图及系统架构,核心观点在于英伟达正通过硬件创新、架构整合及生态扩展,巩固并扩大其在人工智能推理基础设施领域的领导地位[3]。公司通过收购Groq整合LPU技术、推出多代GPU与系统、以及布局CPO(共封装光学)等先进互连技术,旨在构建一个覆盖计算、网络、存储的完整且高性能的AI推理解决方案王国[3][93]。 产品与技术发布 - 英伟达在GTC 2026上发布了三款新系统:Groq LPX、Vera ETL256和STX,并更新了Kyber机架架构[3] - 发布了Rubin Ultra NVL576和Feynman NVL1152等多机架系统,并透露了Feynman架构的早期信息[3] - 公司CEO黄仁勋在主题演讲中特别提及了InferenceX,凸显了其对推理市场的重视[3] Groq收购与LPU技术整合 - 英伟达以支付200亿美元获得知识产权许可和团队的形式“收购”了Groq,此举规避了严格的反垄断审查并加速了技术整合[4] - 交易宣布不到四个月,Groq的LPU(语言处理单元)系统概念已被集成到Vera Rubin推理堆栈中[4] - Groq LPU采用独特的“切片”架构,通过高带宽SRAM和确定性执行实现极低的延迟,擅长快速处理token,但与GPU相比在总吞吐量上存在权衡[5][6][8] - 第一代LPU采用GlobalFoundries 14nm工艺,而计划中的第二代LPU因设计问题(SerDes速度未达标)从未量产[6][7] - 英伟达将直接推出第三代LPU(LP30/LP35),跳过有缺陷的第二代,采用三星SF4X工艺,拥有500MB片上SRAM和1.2 PFLOPS的FP8算力[9][14] - 下一代LP40将采用台积电N3P工艺和CoWoS-R封装,集成英伟达自有IP(如NVLink),并与Feynman平台协同设计[15] GPU与LPU协同推理架构(AFD) - 英伟达引入LPU旨在提升高交互场景下的推理性能,利用其低延迟特性加速解码阶段[19] - 提出了注意力前馈神经网络解耦(AFD)技术,将Transformer模型中的注意力机制(有状态、动态)映射到GPU执行,而将前馈网络(FFN,无状态、静态)映射到LPU执行[21][25] - 这种解耦允许GPU的HBM容量更专注于键值缓存(KV Cache),从而支持更多的并发用户[23] - 采用乒乓流水线并行机制来隐藏GPU与LPU之间token路由(分发与合并)产生的通信延迟[27][29] - LPU还可用于部署推测性解码中的草稿模型或多token预测层,以进一步提升解码效率[32] LPX机架系统 - LPX机架系统包含32个1U计算托架,每个托架(节点)包含16个LPU、2个Altera FPGA、1个Intel Granite Rapids CPU和1个BlueField-4前端模块[35][38] - LPU模块采用背靠背方式安装在PCB上,以优化布线[41] - FPGA作为“架构扩展逻辑”,承担协议转换(C2C转以太网/PCIe)、控制流管理以及提供额外DDR5内存(每个FPGA高达256GB)供KV Cache使用的角色[43] - LPU网络分为节点内全网状连接、通过铜背板的节点间/机架内连接,以及通过OSFP笼(可能使用AEC或光模块)的机架间连接,机架内纵向扩展总带宽达640TB/s[44][46][48][52] 英伟达CPO路线图与互连技术 - 英伟达公布了其CPO路线图,重点用于构建超大规模计算系统的机架间互连,而非机架内部[54] - 在Rubin时代,NVL72(Oberon机架)和NVL144(Kyber机架)采用全铜缆纵向扩展;NVL576系统(8个Oberon机架)将在机架间采用CPO互连[55][60] - 在Feynman时代,NVL1152系统(8个Kyber机架)将“完全采用CPO”,但机架内部GPU到交换机的连接预计仍使用铜缆[56][60] - 公司的策略是尽可能使用铜缆,仅在必要时(如长距离、高密度机架间连接)采用光纤/CPO[56] Kyber机架与Rubin Ultra系统更新 - Kyber机架是Oberon之后的新产品,每个机架可容纳144个Rubin Ultra GPU(原设计为72个),计算刀片密度提升[61] - 每个Kyber机架包含72个NVLink 7交换芯片,GPU通过飞线(flyover cables)连接到中板上的交换芯片[63][70] - Rubin Ultra NVL144 Kyber机架将使用全铜缆扩展,而非CPO[65] - 供应链中讨论了NVL288(两个Kyber机架通过铜背板互连)和NVL576(八个Oberon机架通过CPO互连)等更大规模系统[73][76][78] Vera ETL256高密度CPU系统 - Vera ETL256是一个独立的液冷机架,集成了256个Vera CPU,旨在解决AI工作负载中日益增长的CPU需求瓶颈[79] - 机架内部采用Spectrum-X多平面拓扑,通过铜缆实现所有CPU的完全全连接,无需光模块[80][81] - 该设计将计算资源紧密排列,用铜缆的成本节约来抵消液冷的额外开销[79] CMX与STX存储解决方案 - CMX(原称ICMS)是英伟达的上下文内存存储平台,旨在通过NVMe存储扩展键值缓存(KV Cache)容量,解决长上下文推理的瓶颈[84][85] - STX是一个参考存储机架架构,采用基于BlueField-4的存储解决方案,规定了与Vera Rubin计算集群配套所需的硬盘、CPU、DPU、网卡和交换机的数量[87][90] - 这些举措代表了英伟达将其影响力从计算和网络层向存储及基础设施标准化层拓展的努力[92]