Workflow
Quantum X CPO InfiniBand
icon
搜索文档
2026 年 GTC 展望:英伟达如何通过 LPX、CPO 与 Rubin 重新定义人工智能基础设施-GTC 2026 Outlook_ How NVIDIA Is Redefining AI Infrastructure with LPX, CPO, and Rubin
2026-03-02 01:23
关键要点总结 涉及的行业与公司 * 行业:人工智能计算基础设施、半导体、数据中心、高性能计算、先进封装与互连技术 * 公司:英伟达 (NVIDIA) [1][3][4][7][10] * 相关合作伙伴/技术来源:Groq (LPU技术) [11][12][15][16]、台积电 (TSMC) [41]、光学与PCB材料供应商 [19][20][21][60] 核心观点与论据 1. AI基础设施架构的重新定义与增长驱动力 * 生成式AI和大语言模型的快速发展正迫使数据中心计算架构进行根本性重新设计 [4] * 英伟达在2024年推出的Blackwell GB200 NVL72平台,单个机架可容纳72个GPU和36个Grace CPU,通过NVLink 6和Quantum X800 InfiniBand / Spectrum X以太网互连,提供400 Gb/s横向扩展网络 [4] * 这些创新显著降低了训练成本,并大幅降低了推理工作负载的每百万令牌成本 [6] * 随着模型参数数量持续爆炸性增长,单一架构现在必须支持超大型模型,包括专家混合模型、长上下文推理和实时音视频处理 [7] 2. 新一代AI数据中心平台概览 * 英伟达预计在GTC 2026上发布多项突破性技术:LPX推理机架、CPX和NVL144、采用正交背板和CPO光互连的Rubin Ultra NVL576,以及PCB材料、冷却和组装工艺的变革性改进 [7] * 文章从技术角度详细概述了这些即将推出的平台 [9] 3. LPX推理机架:用于超低延迟推理的新架构 * LPX是英伟达专为推理工作负载设计的新机架架构,其核心源于对Groq LPU技术的许可和收购 [11] * Groq LPU将大量内存直接集成在芯片上,消除了传统GPU依赖外部HBM或DRAM所面临的带宽瓶颈 [11] * LPU集成数百兆比特的片上SRAM,并利用针对顺序推理优化的确定性执行来最大化数据重用 [12] * LPX将这一架构扩展到更大规模,Groq的RealScale网络使用无交换机的直接拓扑,576个LPU可以像共享单个内存空间一样运行 [15] * 根据2025年12月的许可协议,英伟达最初的LPX机架预计集成64个LPU,封装为32个RealScale ASIC芯片 [16] * 在GTC 2026期间,英伟达计划推出增强型LPX机架,每机架配备256个LPU,是第一代的四倍 [17] * LPX采用52层M9 Q-glass PCB,每LPU卡的PCB价值估计约为200美元 [20] * LPX采用液冷冷板进行热管理,类似于NVL72 VR200平台中使用的微通道冷板技术 [21] * LPX的目标不是取代GPU,而是对推理工作负载进行分层 [23] * RealScale网络也可以与NVLink互连桥接,允许LPX系统扩展到基于GPU的平台,并形成混合AI工厂 [24] 4. Rubin平台:新一代训练与推理平台 * Rubin GPU是Blackwell GPU的继任者,采用4纳米工艺制造,集成3360亿个晶体管,配备8个HBM4堆栈,总容量288 GB,内存带宽22 TB/s,约为HBM3E的2.75倍 [30] * Rubin在使用新NVFP4精度时实现高达50 PFLOPS的推理性能(比Blackwell提升5倍),在FP8模式下实现35 PFLOPS的训练性能(提升3.5倍)[32] * Rubin GPU集成硬件加速编解码引擎,支持多流8K视频处理,通过NVLink 6互连,每链路提供1.6 Tb/s,向后兼容NVLink 5 [33] * Vera CPU(又称Grace Rubin CPU)基于Arm Neoverse设计和英伟达内部Olympus CPU微架构,每个Vera CPU具有88个Olympus核心和162 MB L3缓存 [34] * 每个CPU支持高达1.5 TB的LPDDR5X内存,比原始Grace CPU支持的960 GB显著增加,内存带宽翻倍 [36] * VR200 NVL72机架集成72个Rubin GPU和36个Vera CPU,组成36个Vera Rubin超级芯片 [37] * 单个NVL72机架可提供20.7 TB HBM4内存、1580 TB/s总HBM4带宽和260 TB/s NVLink带宽 [37] * 与GB300 NVL72相比,Rubin NVL72推理性能提升5倍,训练性能提升3.5倍,而由于HBM4的更高能效,总功耗仅适度增加 [38] * VR200 NVL72支持两种电源配置:Max Q(GPU额定功率约1.8 kW,总机架功率约190 kW)和 Max P(GPU功率约2.3 kW,总机架功率约230 kW)[39][42] * VR200 NVL72采用升级的微通道冷板设计,通道间距从GB300的150 µm减小到100 µm,有效增加了传热表面积 [40] * Rubin NVL72不仅提高了每机架的计算密度,还重塑了推理的成本结构,HBM4内存和Tensor Core的改进使每令牌训练成本降低约3.5倍,推理成本降低约5倍 [45] 5. CPX与NVL144:用于长上下文推理的平台 * 为应对模型需要数百万令牌上下文的需求,英伟达将在2026年推出Rubin CPX GPU和NVL144 CPX机架 [48] * CPX GPU是Rubin架构的变体,采用单片芯片搭配更具成本效益的GDDR7内存,每个GPU集成六个32 Gb GDDR7设备,提供高达96 GB容量和1 TB/s带宽 [50] * 报告显示,CPX在预填充工作负载上的性能比GB300 NVL72高3倍,并支持超长令牌上下文 [51] * NVL144 CPX集成144个Rubin GPU和144个CPX GPU,提供8 EFLOPS NVFP4计算、100 TB快速内存和1.7 PB/s带宽 [52] * NVL144 CPX采用无电缆模块化架构,计算托盘和交换机托盘通过大面积PCB中板连接,消除了大量铜缆 [52] * 总机架组装时间从约2小时(GB300)减少到约5分钟 [53] * CPX主要针对长序列推理工作负载,包括搜索、长文本生成、代码补全和多轮对话AI [54] * 在NVL144 CPX系统中,CPX GPU占总GPU数量的一半,突显了英伟达在推理市场的战略转变 [55] 6. NVL576:Rubin Ultra与正交背板和CPO的拐点 * 英伟达计划在2027年下半年推出Rubin Ultra NVL576,每个机架包含576个Rubin Ultra GPU,总功耗达到600 kW,训练性能额定为5 EFLOPS FP8,推理性能达到15 EFLOPS NVFP4 [58] * 该超大规模机架采用两种互连方法:正交背板和CPO/NPO光互连 [58] * 正交背板通过单个面积约1平方米、厚度超过10毫米的PCB,集成GPU卡和NVSwitch卡之间的垂直和水平连接,消除了大部分铜缆 [59] * 该背板采用78层结构,通常由三个26层板组装而成,并使用M9和PTFE材料的混合堆叠以降低介电常数和损耗 [60] * 正交背板显著降低了每个NVL576机架的安装劳动力和错误率,同时使PCB价值含量增加20-25% [63] * CPO将光子引擎直接与交换ASIC集成,可以将1.6T可插拔收发器的功耗从约30 W降低到约9 W,与传统光学模块相比,能效提高3.5倍,可靠性提高10倍,信号完整性提高64倍 [65] * 英伟达宣布计划在2026年下半年推出Spectrum X Photonics(以太网CPO)和Quantum X InfiniBand CPO交换机 [66] * Spectrum X Photonics将提供409.6 Tb/s带宽,具有512个800 Gb/s端口;Quantum X InfiniBand CPO将提供115 Tb/s带宽,具有144个800 Gb/s端口 [66][87] * Rubin Ultra NVL576将采用结合纵向扩展CPO和横向扩展CPO的双重策略 [67] * 在整个NVL576机架(12个NVSwitch托盘)中,总共有648个光子引擎用于纵向扩展 [67] * 分析师估计,Rubin Ultra机架中的每个GPU卡大约需要5.5个光子引擎(包括纵向扩展和横向扩展),每个机架的光子引擎总数约为792个 [68] * NPO通过将光子引擎放置在附近的基板或外部模块上来缓解CPO的热挑战 [73] * 英伟达暗示NVL576可能提供CPO和NPO两种变体 [74] 7. 网络与通信:NVLink、Spectrum X和Quantum X * NVLink 6每链路提供1.6 Tb/s,而NVLink 7预计将增加到3.2 Tb/s [81] * NVLink支持缓存一致性,允许CPU和GPU直接共享内存 [82] * 在GTC 2026,英伟达预计将推出Spectrum X Photonics,即基于CPO的以太网产品线 [85] * 通过利用CPO,Spectrum X Photonics将光子引擎与交换机ASIC共封装,将每端口功耗降低至约9 W,与传统可插拔光学器件相比,部署速度提高30% [86] * 英伟达计划在2026年推出Quantum X800 CPO InfiniBand交换机,提供115 Tb/s带宽,具有144个800 Gb/s端口 [87][88] 8. GTC 2026可能发布的内容与未来展望 * 详细LPX机架规格,包括片上内存容量、RealScale网络拓扑、支持的模型类别以及256-LPU配置的热设计 [90] * 正式发布CPX和NVL144,展示百万令牌长上下文生成的演示 [91] * 详细比较Rubin Ultra NVL576变体,包括正交背板设计、基于CPO/NPO的版本、性能指标、电源和热特性 [92] * 正式宣布Spectrum X Photonics和Quantum X CPO的商业规格、交付时间表和产品就绪情况 [93] * 与软件供应商合作推出推理优化软件工具链 [95] * 未来挑战包括:能源消耗与可持续性(600 kW NVL576机架)、软件生态系统演变、供应链安全(M9和PTFE等先进材料)以及市场竞争(AMD MI400、Intel Gaudi3、Google TPU v6等)[96][97][99][100][101] 9. 行业影响 * AI服务器不再是单纯的芯片产品,而是结合了光学、材料、封装、热工程和系统设计的集成系统 [102] * 从NVL72到NVL576,主要平台升级大约每两年发生一次,产品设计必须模块化 [103] * 生态系统协作至关重要,英伟达与Groq、光通信供应商、PCB供应商、服务器制造商和云服务提供商的合作说明了广泛联盟的重要性 [104] * GTC 2026有望成为AI计算的另一个里程碑,通过LPX推理机架、CPX GPU和NVL144、Rubin Ultra NVL576以及相关的CPO/NPO和正交背板技术,英伟达将重新定义推理和训练的基础设施 [105]