GTC 2026 – 推理王国扩张 --- GTC 2026 – The Inference Kingdom Expands

GTC 2026 电话会议纪要关键要点总结涉及的行业与公司 * 行业：人工智能 (AI) 基础设施、半导体、高性能计算 (HPC)、数据中心 * 公司：英伟达 (Nvidia)、Groq、三星 (Samsung Foundry)、台积电 (TSMC)、SK 海力士 (SK Hynix)、英特尔 (Intel)、Altera、Marvell、Alchip 等[1][3][4][5][6][10][20][24][38][78][79] 核心观点与论据 1. 英伟达的战略收购与技术整合 * 英伟达以 200亿美元 授权 Groq 的知识产权并吸纳其团队，功能上等同于收购，但避免了冗长的监管审批流程[10][11] * 此举使英伟达在交易宣布后不到四个月，就将 Groq 的 LPU 技术整合到其 Vera Rubin 推理堆栈中[10][11] * 战略目标是利用 LPU 的低延迟特性补充 GPU 的高吞吐量优势，实现“解耦解码”系统[12][13][27][28] 2. Groq LPU 架构与产品路线图 * LPU 架构特点：采用确定性硬件执行、单级暂存 SRAM、细粒度流水线设计，实现极低延迟（SRAM延迟 5-20 ns）和高带宽（150 TB/s），但 SRAM 容量有限（LPU3 为 500MB）[14][15][16][17][19][27][29][34][35] * LPU 产品迭代： * LPU 1：基于格芯 14nm 工艺，230MB SRAM，750 TFLOPs INT8[20][34] * LPU 2（未量产）：设计用于三星 SF4X 节点，因 SerDes 问题失败[24][26][30] * LPU 3 (LP30)：基于三星 SF4X 节点，500MB SRAM，1.2 PFLOPs FP8 算力，无英伟达设计参与，SerDes 问题已修复[30][34][35] * LP35：LP30 的小幅更新，将整合 NVFP4 数值格式[30] * LPU 4 (LP40)：将由英伟达主导设计，采用台积电 N3P 工艺和 CoWoS-R 封装，支持 NVLink 协议，并计划使用 SK 海力士的混合键合 DRAM 扩展片上内存[38][39] * 制造优势：采用三星 SF4X 节点生产 LPU，使英伟达能够在不占用其宝贵的台积电 N3 产能和 HBM 配额的情况下增加产量，带来增量收入[36][37] 3. 推理系统创新：注意力与前馈网络解耦 (AFD) * 原理：将 LLM 推理中内存密集、状态化的 Attention 操作映射到拥有大容量 HBM 的 GPU 上执行，而将无状态、计算密集的 FFN 操作映射到低延迟的 LPU 上执行[27][28][45][46][56][57] * 优势：针对稀疏的混合专家 (MoE) 模型，解耦可以提升 GPU 的 KV 缓存容量和专家平均处理的 Token 数，从而提高系统整体效率[53][54] * 挑战与优化：GPU 与 LPU 间的 Token 路由可能成为瓶颈，采用“乒乓流水线并行”技术来隐藏通信延迟[59][60][62][63] 4. 投机解码 (Speculative Decoding) 与 LPU 的应用 * 原理：使用小型草稿模型或多 Token 预测 (MTP) 层在 LPU 上快速生成候选 Token，再由主模型（GPU）快速验证，通常能将每步解码输出提升 1.5 到 2 倍[68][69][70][71] * LPU 的角色：利用其低延迟特性，进一步节省延迟并提高吞吐量[68][71] * 内存支持：LPU 可通过 LPX 计算托盘上的 FPGA 访问高达 256 GB 的 DDR5 内存，以支持草稿模型或 MTP 层所需的 KV 缓存[74][89][90] 5. LPX 机架系统与网络架构 * 系统配置：量产版 LPX 机架预计包含 16个 2U 计算托盘，每个托盘含 16个 LPU、2个 Altera FPGA、1个 Intel Granite Rapids CPU 和 1个 BlueField-4 前端模块（客户可替换）[75][77][78][79] * 网络分层： * 纵向扩展 (Scale-up) C2C 网络：用于 LPU 间高速互连，每个机架总带宽 640TB/s[92][93] * 节点内：16个 LPU 通过 PCB 走线实现全互连网格，每个链路 4x100G[96][97] * 节点间/机架内：通过铜缆背板连接，每个 LPU 有 15x2x100G 链路[101] * 机架间：通过 OSFP 笼子（可能使用 AEC 或光模块）连接最多 4 个机架，每个 LPU 有 4x100G 链路[108][109] * 横向扩展 (Scale-out) 网络：通过 Spectrum-X 以太网交换机连接 LPU 与 GPU，用于解耦解码系统[86][91][92] * FPGA 的关键作用：作为“织网扩展逻辑”，负责协议转换（C2C 转以太网/PCIe）、系统控制、并提供额外的 256GB DRAM 用于 KV 缓存[86][87][89][90] 6. 英伟达 CPO（共封装光学）路线图 * Rubin 世代： * NVL72 (Oberon)：机架内全铜缆扩展[113][120] * NVL144 (Kyber)：机架内全铜缆扩展[121] * NVL576：由 8个 Oberon 机架 通过 CPO 互连构成，机架内部仍为铜缆。初期为小批量测试[113][114][122][152][154][156] * Feynman 世代： * NVL72 / NVL144：机架内预计全铜缆[121] * NVL1152：由 8个 Kyber 机架 通过 CPO 互连构成。关于机架内使用铜缆还是 CPO 存在分歧，但机架间确定使用 CPO[115][116][121][187] * 战略：尽可能使用铜缆，必要时（如跨机架大规模互连）才使用光学/CPO[117] 7. Oberon 与 Kyber 机架架构更新 * Kyber 机架更新：计算密度提升，每个计算刀片从 2 GPU + 2 CPU 变为 4个 Rubin Ultra GPU + 2个 Vera CPU。机架总 GPU 数仍为 144个，但插槽箱从 4 个减少为 2 个[124][125] * 网络连接：每个 Kyber 机架使用 72个 NVLink 7.0 交换芯片，每个提供 28.8Tbit/s 聚合带宽。GPU 通过铜缆架空线与中板上的交换机连接[129][134][135][139][140] * 更大规模系统： * NVL288：概念阶段，可能通过铜缆背板连接两个 Kyber 机架，需要更高基数的交换机[144][145][146] * NVL576：确认作为 Rubin Ultra 的扩展选项[152] 8. Vera ETL256 高密度 CPU 机架 * 设计目标：解决 AI 工作负载中 CPU 日益成为瓶颈的问题，为 GPU 集群提供高密度数据处理和编排能力[158][159] * 关键规格：单机架容纳 256颗 Vera CPU，采用液冷。通过紧密封装使机架内全部使用铜缆互连，以节省成本[160][161][165] * 网络架构：采用 Spectrum-X 多平面拓扑，通过 4 个交换机托盘实现机架内 256颗 CPU 的扁平化全互连以太网网络[162][163][164][165] 9. 存储与数据平台：CMX 与 STX * CMX (Context Memory Storage)：英伟达的推理上下文内存存储平台，本质上是基于 BlueField-4 DPU 的存储服务器，用于将 KV 缓存卸载到 NVMe 存储层，以支持长上下文工作负载[167][169][170][172][173] * STX：基于 CMX 的参考存储机架架构。每个 STX 机架包含 32颗 Vera CPU、64个 CX-9 NIC 和 64个 SOCAMM 模块，明确了集群存储层的标准化设计[175][178][181][182] * 战略意图：在占领计算和网络层后，英伟达正通过 BlueField-4、CMX、STX 向存储、软件和基础设施运营层扩展[185] 10. Feynman 平台前瞻与供应链影响 * 技术创新：Feynman 平台将集成混合键合/SoIC、A16 工艺、CPO 和定制化 HBM 等多项先进技术[157] * 网络拓扑可能性：为实现 NVL1152，正在探索两种机架间 CPO 互连拓扑：类似 Oberon 的两层 CLOS 网络，或使用 OCS 的可重构 Dragonfly 拓扑[187][194][195] * 技术挑战：若在机架内继续使用铜缆并实现带宽翻倍，需要攻克 448Gbit/s 单向 SerDes 的技术难题[189][190] * 供应链影响：LPX 系统、更新的 Kyber 机架等新产品的推出，将对相关元器件（如高端 PCB、连接器、线缆、光模块/CPO、存储设备）供应商产生重大影响[186][197][199] 其他重要但可能被忽略的内容 * Groq 的历史问题：LPU 2 因使用 Marvell 的 SerDes IP 无法达到 112G 速度而失败，LPU 3 已更换供应商并修复此问题[26][30] * LPU 的算力定位：LPU 的矩阵乘法算力（1.2 PFLOPs FP8）仅是 GPU 的一小部分，其核心价值在于低延迟而非峰值算力[34] * FPGA 的替代方案：超大规模云服务商客户可能会在 LPX 等系统中使用自己的前端网卡，而非英伟达的 BlueField[79] * 路线图的不确定性：尤其是 Feynman 世代 NVL1152 的最终架构（机架内铜缆 vs. CPO）以及 NVSwitch 7 的实际规格（带宽与基数）仍可能变化[116][119][150] * 英伟达的生态扩张：通过 STX 联合了几乎所有主流存储厂商，展示了其构建全栈解决方案和行业标准的野心[183][184][185]