Workflow
Vera ETL256
icon
搜索文档
GTC 2026 – 推理王国扩张 --- GTC 2026 – The Inference Kingdom Expands
2026-03-25 10:51
GTC 2026 电话会议纪要关键要点总结 涉及的行业与公司 * 行业:人工智能 (AI) 基础设施、半导体、高性能计算 (HPC)、数据中心 * 公司:**英伟达 (Nvidia)**、Groq、三星 (Samsung Foundry)、台积电 (TSMC)、SK 海力士 (SK Hynix)、英特尔 (Intel)、Altera、Marvell、Alchip 等[1][3][4][5][6][10][20][24][38][78][79] 核心观点与论据 1. 英伟达的战略收购与技术整合 * 英伟达以 **200亿美元** 授权 Groq 的知识产权并吸纳其团队,功能上等同于收购,但避免了冗长的监管审批流程[10][11] * 此举使英伟达在交易宣布后不到四个月,就将 Groq 的 LPU 技术整合到其 Vera Rubin 推理堆栈中[10][11] * 战略目标是利用 LPU 的低延迟特性补充 GPU 的高吞吐量优势,实现“解耦解码”系统[12][13][27][28] 2. Groq LPU 架构与产品路线图 * **LPU 架构特点**:采用确定性硬件执行、单级暂存 SRAM、细粒度流水线设计,实现极低延迟(SRAM延迟 **5-20 ns**)和高带宽(**150 TB/s**),但 SRAM 容量有限(LPU3 为 **500MB**)[14][15][16][17][19][27][29][34][35] * **LPU 产品迭代**: * LPU 1:基于格芯 **14nm** 工艺,**230MB SRAM**,**750 TFLOPs INT8**[20][34] * LPU 2(未量产):设计用于三星 **SF4X** 节点,因 SerDes 问题失败[24][26][30] * **LPU 3 (LP30)**:基于三星 **SF4X** 节点,**500MB SRAM**,**1.2 PFLOPs FP8** 算力,无英伟达设计参与,SerDes 问题已修复[30][34][35] * LP35:LP30 的小幅更新,将整合 NVFP4 数值格式[30] * **LPU 4 (LP40)**:将由英伟达主导设计,采用台积电 **N3P** 工艺和 **CoWoS-R** 封装,支持 NVLink 协议,并计划使用 SK 海力士的混合键合 DRAM 扩展片上内存[38][39] * **制造优势**:采用三星 SF4X 节点生产 LPU,使英伟达能够在不占用其宝贵的台积电 **N3** 产能和 **HBM** 配额的情况下增加产量,带来增量收入[36][37] 3. 推理系统创新:注意力与前馈网络解耦 (AFD) * **原理**:将 LLM 推理中内存密集、状态化的 **Attention** 操作映射到拥有大容量 HBM 的 GPU 上执行,而将无状态、计算密集的 **FFN** 操作映射到低延迟的 LPU 上执行[27][28][45][46][56][57] * **优势**:针对稀疏的混合专家 (MoE) 模型,解耦可以提升 GPU 的 KV 缓存容量和专家平均处理的 Token 数,从而提高系统整体效率[53][54] * **挑战与优化**:GPU 与 LPU 间的 Token 路由可能成为瓶颈,采用“乒乓流水线并行”技术来隐藏通信延迟[59][60][62][63] 4. 投机解码 (Speculative Decoding) 与 LPU 的应用 * **原理**:使用小型草稿模型或多 Token 预测 (MTP) 层在 LPU 上快速生成候选 Token,再由主模型(GPU)快速验证,通常能将每步解码输出提升 **1.5 到 2 倍**[68][69][70][71] * **LPU 的角色**:利用其低延迟特性,进一步节省延迟并提高吞吐量[68][71] * **内存支持**:LPU 可通过 LPX 计算托盘上的 FPGA 访问高达 **256 GB** 的 DDR5 内存,以支持草稿模型或 MTP 层所需的 KV 缓存[74][89][90] 5. LPX 机架系统与网络架构 * **系统配置**:量产版 LPX 机架预计包含 **16个 2U 计算托盘**,每个托盘含 **16个 LPU**、**2个 Altera FPGA**、**1个 Intel Granite Rapids CPU** 和 **1个 BlueField-4** 前端模块(客户可替换)[75][77][78][79] * **网络分层**: * **纵向扩展 (Scale-up) C2C 网络**:用于 LPU 间高速互连,每个机架总带宽 **640TB/s**[92][93] * 节点内:16个 LPU 通过 PCB 走线实现全互连网格,每个链路 **4x100G**[96][97] * 节点间/机架内:通过铜缆背板连接,每个 LPU 有 **15x2x100G** 链路[101] * 机架间:通过 OSFP 笼子(可能使用 AEC 或光模块)连接最多 4 个机架,每个 LPU 有 **4x100G** 链路[108][109] * **横向扩展 (Scale-out) 网络**:通过 **Spectrum-X** 以太网交换机连接 LPU 与 GPU,用于解耦解码系统[86][91][92] * **FPGA 的关键作用**:作为“织网扩展逻辑”,负责协议转换(C2C 转以太网/PCIe)、系统控制、并提供额外的 **256GB DRAM** 用于 KV 缓存[86][87][89][90] 6. 英伟达 CPO(共封装光学)路线图 * **Rubin 世代**: * NVL72 (Oberon):机架内全铜缆扩展[113][120] * NVL144 (Kyber):机架内全铜缆扩展[121] * **NVL576**:由 **8个 Oberon 机架** 通过 **CPO** 互连构成,机架内部仍为铜缆。初期为小批量测试[113][114][122][152][154][156] * **Feynman 世代**: * NVL72 / NVL144:机架内预计全铜缆[121] * **NVL1152**:由 **8个 Kyber 机架** 通过 **CPO** 互连构成。关于机架内使用铜缆还是 CPO 存在分歧,但机架间确定使用 CPO[115][116][121][187] * **战略**:尽可能使用铜缆,必要时(如跨机架大规模互连)才使用光学/CPO[117] 7. Oberon 与 Kyber 机架架构更新 * **Kyber 机架更新**:计算密度提升,每个计算刀片从 2 GPU + 2 CPU 变为 **4个 Rubin Ultra GPU + 2个 Vera CPU**。机架总 GPU 数仍为 **144个**,但插槽箱从 4 个减少为 2 个[124][125] * **网络连接**:每个 Kyber 机架使用 **72个 NVLink 7.0 交换芯片**,每个提供 **28.8Tbit/s** 聚合带宽。GPU 通过铜缆架空线与中板上的交换机连接[129][134][135][139][140] * **更大规模系统**: * **NVL288**:概念阶段,可能通过铜缆背板连接两个 Kyber 机架,需要更高基数的交换机[144][145][146] * **NVL576**:确认作为 Rubin Ultra 的扩展选项[152] 8. Vera ETL256 高密度 CPU 机架 * **设计目标**:解决 AI 工作负载中 CPU 日益成为瓶颈的问题,为 GPU 集群提供高密度数据处理和编排能力[158][159] * **关键规格**:单机架容纳 **256颗 Vera CPU**,采用液冷。通过紧密封装使机架内全部使用铜缆互连,以节省成本[160][161][165] * **网络架构**:采用 **Spectrum-X** 多平面拓扑,通过 4 个交换机托盘实现机架内 **256颗 CPU** 的扁平化全互连以太网网络[162][163][164][165] 9. 存储与数据平台:CMX 与 STX * **CMX (Context Memory Storage)**:英伟达的推理上下文内存存储平台,本质上是基于 **BlueField-4 DPU** 的存储服务器,用于将 KV 缓存卸载到 NVMe 存储层,以支持长上下文工作负载[167][169][170][172][173] * **STX**:基于 CMX 的参考存储机架架构。每个 STX 机架包含 **32颗 Vera CPU**、**64个 CX-9 NIC** 和 **64个 SOCAMM 模块**,明确了集群存储层的标准化设计[175][178][181][182] * **战略意图**:在占领计算和网络层后,英伟达正通过 BlueField-4、CMX、STX 向存储、软件和基础设施运营层扩展[185] 10. Feynman 平台前瞻与供应链影响 * **技术创新**:Feynman 平台将集成混合键合/SoIC、**A16** 工艺、**CPO** 和定制化 **HBM** 等多项先进技术[157] * **网络拓扑可能性**:为实现 NVL1152,正在探索两种机架间 CPO 互连拓扑:类似 Oberon 的两层 CLOS 网络,或使用 OCS 的可重构 Dragonfly 拓扑[187][194][195] * **技术挑战**:若在机架内继续使用铜缆并实现带宽翻倍,需要攻克 **448Gbit/s** 单向 SerDes 的技术难题[189][190] * **供应链影响**:LPX 系统、更新的 Kyber 机架等新产品的推出,将对相关元器件(如高端 PCB、连接器、线缆、光模块/CPO、存储设备)供应商产生重大影响[186][197][199] 其他重要但可能被忽略的内容 * **Groq 的历史问题**:LPU 2 因使用 Marvell 的 SerDes IP 无法达到 **112G** 速度而失败,LPU 3 已更换供应商并修复此问题[26][30] * **LPU 的算力定位**:LPU 的矩阵乘法算力(**1.2 PFLOPs FP8**)仅是 GPU 的一小部分,其核心价值在于低延迟而非峰值算力[34] * **FPGA 的替代方案**:超大规模云服务商客户可能会在 LPX 等系统中使用自己的前端网卡,而非英伟达的 BlueField[79] * **路线图的不确定性**:尤其是 Feynman 世代 NVL1152 的最终架构(机架内铜缆 vs. CPO)以及 NVSwitch 7 的实际规格(带宽与基数)仍可能变化[116][119][150] * **英伟达的生态扩张**:通过 STX 联合了几乎所有主流存储厂商,展示了其构建全栈解决方案和行业标准的野心[183][184][185]
英伟达的推理芯片局
半导体行业观察· 2026-03-25 08:40
文章核心观点 文章详细解读了英伟达在2026年GTC大会上发布的一系列新产品、技术路线图及系统架构,核心观点在于英伟达正通过硬件创新、架构整合及生态扩展,巩固并扩大其在人工智能推理基础设施领域的领导地位[3]。公司通过收购Groq整合LPU技术、推出多代GPU与系统、以及布局CPO(共封装光学)等先进互连技术,旨在构建一个覆盖计算、网络、存储的完整且高性能的AI推理解决方案王国[3][93]。 产品与技术发布 - 英伟达在GTC 2026上发布了三款新系统:Groq LPX、Vera ETL256和STX,并更新了Kyber机架架构[3] - 发布了Rubin Ultra NVL576和Feynman NVL1152等多机架系统,并透露了Feynman架构的早期信息[3] - 公司CEO黄仁勋在主题演讲中特别提及了InferenceX,凸显了其对推理市场的重视[3] Groq收购与LPU技术整合 - 英伟达以支付200亿美元获得知识产权许可和团队的形式“收购”了Groq,此举规避了严格的反垄断审查并加速了技术整合[4] - 交易宣布不到四个月,Groq的LPU(语言处理单元)系统概念已被集成到Vera Rubin推理堆栈中[4] - Groq LPU采用独特的“切片”架构,通过高带宽SRAM和确定性执行实现极低的延迟,擅长快速处理token,但与GPU相比在总吞吐量上存在权衡[5][6][8] - 第一代LPU采用GlobalFoundries 14nm工艺,而计划中的第二代LPU因设计问题(SerDes速度未达标)从未量产[6][7] - 英伟达将直接推出第三代LPU(LP30/LP35),跳过有缺陷的第二代,采用三星SF4X工艺,拥有500MB片上SRAM和1.2 PFLOPS的FP8算力[9][14] - 下一代LP40将采用台积电N3P工艺和CoWoS-R封装,集成英伟达自有IP(如NVLink),并与Feynman平台协同设计[15] GPU与LPU协同推理架构(AFD) - 英伟达引入LPU旨在提升高交互场景下的推理性能,利用其低延迟特性加速解码阶段[19] - 提出了注意力前馈神经网络解耦(AFD)技术,将Transformer模型中的注意力机制(有状态、动态)映射到GPU执行,而将前馈网络(FFN,无状态、静态)映射到LPU执行[21][25] - 这种解耦允许GPU的HBM容量更专注于键值缓存(KV Cache),从而支持更多的并发用户[23] - 采用乒乓流水线并行机制来隐藏GPU与LPU之间token路由(分发与合并)产生的通信延迟[27][29] - LPU还可用于部署推测性解码中的草稿模型或多token预测层,以进一步提升解码效率[32] LPX机架系统 - LPX机架系统包含32个1U计算托架,每个托架(节点)包含16个LPU、2个Altera FPGA、1个Intel Granite Rapids CPU和1个BlueField-4前端模块[35][38] - LPU模块采用背靠背方式安装在PCB上,以优化布线[41] - FPGA作为“架构扩展逻辑”,承担协议转换(C2C转以太网/PCIe)、控制流管理以及提供额外DDR5内存(每个FPGA高达256GB)供KV Cache使用的角色[43] - LPU网络分为节点内全网状连接、通过铜背板的节点间/机架内连接,以及通过OSFP笼(可能使用AEC或光模块)的机架间连接,机架内纵向扩展总带宽达640TB/s[44][46][48][52] 英伟达CPO路线图与互连技术 - 英伟达公布了其CPO路线图,重点用于构建超大规模计算系统的机架间互连,而非机架内部[54] - 在Rubin时代,NVL72(Oberon机架)和NVL144(Kyber机架)采用全铜缆纵向扩展;NVL576系统(8个Oberon机架)将在机架间采用CPO互连[55][60] - 在Feynman时代,NVL1152系统(8个Kyber机架)将“完全采用CPO”,但机架内部GPU到交换机的连接预计仍使用铜缆[56][60] - 公司的策略是尽可能使用铜缆,仅在必要时(如长距离、高密度机架间连接)采用光纤/CPO[56] Kyber机架与Rubin Ultra系统更新 - Kyber机架是Oberon之后的新产品,每个机架可容纳144个Rubin Ultra GPU(原设计为72个),计算刀片密度提升[61] - 每个Kyber机架包含72个NVLink 7交换芯片,GPU通过飞线(flyover cables)连接到中板上的交换芯片[63][70] - Rubin Ultra NVL144 Kyber机架将使用全铜缆扩展,而非CPO[65] - 供应链中讨论了NVL288(两个Kyber机架通过铜背板互连)和NVL576(八个Oberon机架通过CPO互连)等更大规模系统[73][76][78] Vera ETL256高密度CPU系统 - Vera ETL256是一个独立的液冷机架,集成了256个Vera CPU,旨在解决AI工作负载中日益增长的CPU需求瓶颈[79] - 机架内部采用Spectrum-X多平面拓扑,通过铜缆实现所有CPU的完全全连接,无需光模块[80][81] - 该设计将计算资源紧密排列,用铜缆的成本节约来抵消液冷的额外开销[79] CMX与STX存储解决方案 - CMX(原称ICMS)是英伟达的上下文内存存储平台,旨在通过NVMe存储扩展键值缓存(KV Cache)容量,解决长上下文推理的瓶颈[84][85] - STX是一个参考存储机架架构,采用基于BlueField-4的存储解决方案,规定了与Vera Rubin计算集群配套所需的硬盘、CPU、DPU、网卡和交换机的数量[87][90] - 这些举措代表了英伟达将其影响力从计算和网络层向存储及基础设施标准化层拓展的努力[92]