GTC 2026 电话会议纪要关键要点总结 涉及的行业与公司 * 行业:人工智能 (AI) 基础设施、半导体、高性能计算 (HPC)、数据中心 * 公司:英伟达 (Nvidia)、Groq、三星 (Samsung Foundry)、台积电 (TSMC)、SK 海力士 (SK Hynix)、英特尔 (Intel)、Altera、Marvell、Alchip 等[1][3][4][5][6][10][20][24][38][78][79] 核心观点与论据 1. 英伟达的战略收购与技术整合 * 英伟达以 200亿美元 授权 Groq 的知识产权并吸纳其团队,功能上等同于收购,但避免了冗长的监管审批流程[10][11] * 此举使英伟达在交易宣布后不到四个月,就将 Groq 的 LPU 技术整合到其 Vera Rubin 推理堆栈中[10][11] * 战略目标是利用 LPU 的低延迟特性补充 GPU 的高吞吐量优势,实现“解耦解码”系统[12][13][27][28] 2. Groq LPU 架构与产品路线图 * LPU 架构特点:采用确定性硬件执行、单级暂存 SRAM、细粒度流水线设计,实现极低延迟(SRAM延迟 5-20 ns)和高带宽(150 TB/s),但 SRAM 容量有限(LPU3 为 500MB)[14][15][16][17][19][27][29][34][35] * LPU 产品迭代: * LPU 1:基于格芯 14nm 工艺,230MB SRAM,750 TFLOPs INT8[20][34] * LPU 2(未量产):设计用于三星 SF4X 节点,因 SerDes 问题失败[24][26][30] * LPU 3 (LP30):基于三星 SF4X 节点,500MB SRAM,1.2 PFLOPs FP8 算力,无英伟达设计参与,SerDes 问题已修复[30][34][35] * LP35:LP30 的小幅更新,将整合 NVFP4 数值格式[30] * LPU 4 (LP40):将由英伟达主导设计,采用台积电 N3P 工艺和 CoWoS-R 封装,支持 NVLink 协议,并计划使用 SK 海力士的混合键合 DRAM 扩展片上内存[38][39] * 制造优势:采用三星 SF4X 节点生产 LPU,使英伟达能够在不占用其宝贵的台积电 N3 产能和 HBM 配额的情况下增加产量,带来增量收入[36][37] 3. 推理系统创新:注意力与前馈网络解耦 (AFD) * 原理:将 LLM 推理中内存密集、状态化的 Attention 操作映射到拥有大容量 HBM 的 GPU 上执行,而将无状态、计算密集的 FFN 操作映射到低延迟的 LPU 上执行[27][28][45][46][56][57] * 优势:针对稀疏的混合专家 (MoE) 模型,解耦可以提升 GPU 的 KV 缓存容量和专家平均处理的 Token 数,从而提高系统整体效率[53][54] * 挑战与优化:GPU 与 LPU 间的 Token 路由可能成为瓶颈,采用“乒乓流水线并行”技术来隐藏通信延迟[59][60][62][63] 4. 投机解码 (Speculative Decoding) 与 LPU 的应用 * 原理:使用小型草稿模型或多 Token 预测 (MTP) 层在 LPU 上快速生成候选 Token,再由主模型(GPU)快速验证,通常能将每步解码输出提升 1.5 到 2 倍[68][69][70][71] * LPU 的角色:利用其低延迟特性,进一步节省延迟并提高吞吐量[68][71] * 内存支持:LPU 可通过 LPX 计算托盘上的 FPGA 访问高达 256 GB 的 DDR5 内存,以支持草稿模型或 MTP 层所需的 KV 缓存[74][89][90] 5. LPX 机架系统与网络架构 * 系统配置:量产版 LPX 机架预计包含 16个 2U 计算托盘,每个托盘含 16个 LPU、2个 Altera FPGA、1个 Intel Granite Rapids CPU 和 1个 BlueField-4 前端模块(客户可替换)[75][77][78][79] * 网络分层: * 纵向扩展 (Scale-up) C2C 网络:用于 LPU 间高速互连,每个机架总带宽 640TB/s[92][93] * 节点内:16个 LPU 通过 PCB 走线实现全互连网格,每个链路 4x100G[96][97] * 节点间/机架内:通过铜缆背板连接,每个 LPU 有 15x2x100G 链路[101] * 机架间:通过 OSFP 笼子(可能使用 AEC 或光模块)连接最多 4 个机架,每个 LPU 有 4x100G 链路[108][109] * 横向扩展 (Scale-out) 网络:通过 Spectrum-X 以太网交换机连接 LPU 与 GPU,用于解耦解码系统[86][91][92] * FPGA 的关键作用:作为“织网扩展逻辑”,负责协议转换(C2C 转以太网/PCIe)、系统控制、并提供额外的 256GB DRAM 用于 KV 缓存[86][87][89][90] 6. 英伟达 CPO(共封装光学)路线图 * Rubin 世代: * NVL72 (Oberon):机架内全铜缆扩展[113][120] * NVL144 (Kyber):机架内全铜缆扩展[121] * NVL576:由 8个 Oberon 机架 通过 CPO 互连构成,机架内部仍为铜缆。初期为小批量测试[113][114][122][152][154][156] * Feynman 世代: * NVL72 / NVL144:机架内预计全铜缆[121] * NVL1152:由 8个 Kyber 机架 通过 CPO 互连构成。关于机架内使用铜缆还是 CPO 存在分歧,但机架间确定使用 CPO[115][116][121][187] * 战略:尽可能使用铜缆,必要时(如跨机架大规模互连)才使用光学/CPO[117] 7. Oberon 与 Kyber 机架架构更新 * Kyber 机架更新:计算密度提升,每个计算刀片从 2 GPU + 2 CPU 变为 4个 Rubin Ultra GPU + 2个 Vera CPU。机架总 GPU 数仍为 144个,但插槽箱从 4 个减少为 2 个[124][125] * 网络连接:每个 Kyber 机架使用 72个 NVLink 7.0 交换芯片,每个提供 28.8Tbit/s 聚合带宽。GPU 通过铜缆架空线与中板上的交换机连接[129][134][135][139][140] * 更大规模系统: * NVL288:概念阶段,可能通过铜缆背板连接两个 Kyber 机架,需要更高基数的交换机[144][145][146] * NVL576:确认作为 Rubin Ultra 的扩展选项[152] 8. Vera ETL256 高密度 CPU 机架 * 设计目标:解决 AI 工作负载中 CPU 日益成为瓶颈的问题,为 GPU 集群提供高密度数据处理和编排能力[158][159] * 关键规格:单机架容纳 256颗 Vera CPU,采用液冷。通过紧密封装使机架内全部使用铜缆互连,以节省成本[160][161][165] * 网络架构:采用 Spectrum-X 多平面拓扑,通过 4 个交换机托盘实现机架内 256颗 CPU 的扁平化全互连以太网网络[162][163][164][165] 9. 存储与数据平台:CMX 与 STX * CMX (Context Memory Storage):英伟达的推理上下文内存存储平台,本质上是基于 BlueField-4 DPU 的存储服务器,用于将 KV 缓存卸载到 NVMe 存储层,以支持长上下文工作负载[167][169][170][172][173] * STX:基于 CMX 的参考存储机架架构。每个 STX 机架包含 32颗 Vera CPU、64个 CX-9 NIC 和 64个 SOCAMM 模块,明确了集群存储层的标准化设计[175][178][181][182] * 战略意图:在占领计算和网络层后,英伟达正通过 BlueField-4、CMX、STX 向存储、软件和基础设施运营层扩展[185] 10. Feynman 平台前瞻与供应链影响 * 技术创新:Feynman 平台将集成混合键合/SoIC、A16 工艺、CPO 和定制化 HBM 等多项先进技术[157] * 网络拓扑可能性:为实现 NVL1152,正在探索两种机架间 CPO 互连拓扑:类似 Oberon 的两层 CLOS 网络,或使用 OCS 的可重构 Dragonfly 拓扑[187][194][195] * 技术挑战:若在机架内继续使用铜缆并实现带宽翻倍,需要攻克 448Gbit/s 单向 SerDes 的技术难题[189][190] * 供应链影响:LPX 系统、更新的 Kyber 机架等新产品的推出,将对相关元器件(如高端 PCB、连接器、线缆、光模块/CPO、存储设备)供应商产生重大影响[186][197][199] 其他重要但可能被忽略的内容 * Groq 的历史问题:LPU 2 因使用 Marvell 的 SerDes IP 无法达到 112G 速度而失败,LPU 3 已更换供应商并修复此问题[26][30] * LPU 的算力定位:LPU 的矩阵乘法算力(1.2 PFLOPs FP8)仅是 GPU 的一小部分,其核心价值在于低延迟而非峰值算力[34] * FPGA 的替代方案:超大规模云服务商客户可能会在 LPX 等系统中使用自己的前端网卡,而非英伟达的 BlueField[79] * 路线图的不确定性:尤其是 Feynman 世代 NVL1152 的最终架构(机架内铜缆 vs. CPO)以及 NVSwitch 7 的实际规格(带宽与基数)仍可能变化[116][119][150] * 英伟达的生态扩张:通过 STX 联合了几乎所有主流存储厂商,展示了其构建全栈解决方案和行业标准的野心[183][184][185]
GTC 2026 – 推理王国扩张 --- GTC 2026 – The Inference Kingdom Expands