NVL576
搜索文档
2026 年 GTC 展望:英伟达如何通过 LPX、CPO 与 Rubin 重新定义人工智能基础设施-GTC 2026 Outlook_ How NVIDIA Is Redefining AI Infrastructure with LPX, CPO, and Rubin
2026-03-02 01:23
关键要点总结 涉及的行业与公司 * 行业:人工智能计算基础设施、半导体、数据中心、高性能计算、先进封装与互连技术 * 公司:英伟达 (NVIDIA) [1][3][4][7][10] * 相关合作伙伴/技术来源:Groq (LPU技术) [11][12][15][16]、台积电 (TSMC) [41]、光学与PCB材料供应商 [19][20][21][60] 核心观点与论据 1. AI基础设施架构的重新定义与增长驱动力 * 生成式AI和大语言模型的快速发展正迫使数据中心计算架构进行根本性重新设计 [4] * 英伟达在2024年推出的Blackwell GB200 NVL72平台,单个机架可容纳72个GPU和36个Grace CPU,通过NVLink 6和Quantum X800 InfiniBand / Spectrum X以太网互连,提供400 Gb/s横向扩展网络 [4] * 这些创新显著降低了训练成本,并大幅降低了推理工作负载的每百万令牌成本 [6] * 随着模型参数数量持续爆炸性增长,单一架构现在必须支持超大型模型,包括专家混合模型、长上下文推理和实时音视频处理 [7] 2. 新一代AI数据中心平台概览 * 英伟达预计在GTC 2026上发布多项突破性技术:LPX推理机架、CPX和NVL144、采用正交背板和CPO光互连的Rubin Ultra NVL576,以及PCB材料、冷却和组装工艺的变革性改进 [7] * 文章从技术角度详细概述了这些即将推出的平台 [9] 3. LPX推理机架:用于超低延迟推理的新架构 * LPX是英伟达专为推理工作负载设计的新机架架构,其核心源于对Groq LPU技术的许可和收购 [11] * Groq LPU将大量内存直接集成在芯片上,消除了传统GPU依赖外部HBM或DRAM所面临的带宽瓶颈 [11] * LPU集成数百兆比特的片上SRAM,并利用针对顺序推理优化的确定性执行来最大化数据重用 [12] * LPX将这一架构扩展到更大规模,Groq的RealScale网络使用无交换机的直接拓扑,576个LPU可以像共享单个内存空间一样运行 [15] * 根据2025年12月的许可协议,英伟达最初的LPX机架预计集成64个LPU,封装为32个RealScale ASIC芯片 [16] * 在GTC 2026期间,英伟达计划推出增强型LPX机架,每机架配备256个LPU,是第一代的四倍 [17] * LPX采用52层M9 Q-glass PCB,每LPU卡的PCB价值估计约为200美元 [20] * LPX采用液冷冷板进行热管理,类似于NVL72 VR200平台中使用的微通道冷板技术 [21] * LPX的目标不是取代GPU,而是对推理工作负载进行分层 [23] * RealScale网络也可以与NVLink互连桥接,允许LPX系统扩展到基于GPU的平台,并形成混合AI工厂 [24] 4. Rubin平台:新一代训练与推理平台 * Rubin GPU是Blackwell GPU的继任者,采用4纳米工艺制造,集成3360亿个晶体管,配备8个HBM4堆栈,总容量288 GB,内存带宽22 TB/s,约为HBM3E的2.75倍 [30] * Rubin在使用新NVFP4精度时实现高达50 PFLOPS的推理性能(比Blackwell提升5倍),在FP8模式下实现35 PFLOPS的训练性能(提升3.5倍)[32] * Rubin GPU集成硬件加速编解码引擎,支持多流8K视频处理,通过NVLink 6互连,每链路提供1.6 Tb/s,向后兼容NVLink 5 [33] * Vera CPU(又称Grace Rubin CPU)基于Arm Neoverse设计和英伟达内部Olympus CPU微架构,每个Vera CPU具有88个Olympus核心和162 MB L3缓存 [34] * 每个CPU支持高达1.5 TB的LPDDR5X内存,比原始Grace CPU支持的960 GB显著增加,内存带宽翻倍 [36] * VR200 NVL72机架集成72个Rubin GPU和36个Vera CPU,组成36个Vera Rubin超级芯片 [37] * 单个NVL72机架可提供20.7 TB HBM4内存、1580 TB/s总HBM4带宽和260 TB/s NVLink带宽 [37] * 与GB300 NVL72相比,Rubin NVL72推理性能提升5倍,训练性能提升3.5倍,而由于HBM4的更高能效,总功耗仅适度增加 [38] * VR200 NVL72支持两种电源配置:Max Q(GPU额定功率约1.8 kW,总机架功率约190 kW)和 Max P(GPU功率约2.3 kW,总机架功率约230 kW)[39][42] * VR200 NVL72采用升级的微通道冷板设计,通道间距从GB300的150 µm减小到100 µm,有效增加了传热表面积 [40] * Rubin NVL72不仅提高了每机架的计算密度,还重塑了推理的成本结构,HBM4内存和Tensor Core的改进使每令牌训练成本降低约3.5倍,推理成本降低约5倍 [45] 5. CPX与NVL144:用于长上下文推理的平台 * 为应对模型需要数百万令牌上下文的需求,英伟达将在2026年推出Rubin CPX GPU和NVL144 CPX机架 [48] * CPX GPU是Rubin架构的变体,采用单片芯片搭配更具成本效益的GDDR7内存,每个GPU集成六个32 Gb GDDR7设备,提供高达96 GB容量和1 TB/s带宽 [50] * 报告显示,CPX在预填充工作负载上的性能比GB300 NVL72高3倍,并支持超长令牌上下文 [51] * NVL144 CPX集成144个Rubin GPU和144个CPX GPU,提供8 EFLOPS NVFP4计算、100 TB快速内存和1.7 PB/s带宽 [52] * NVL144 CPX采用无电缆模块化架构,计算托盘和交换机托盘通过大面积PCB中板连接,消除了大量铜缆 [52] * 总机架组装时间从约2小时(GB300)减少到约5分钟 [53] * CPX主要针对长序列推理工作负载,包括搜索、长文本生成、代码补全和多轮对话AI [54] * 在NVL144 CPX系统中,CPX GPU占总GPU数量的一半,突显了英伟达在推理市场的战略转变 [55] 6. NVL576:Rubin Ultra与正交背板和CPO的拐点 * 英伟达计划在2027年下半年推出Rubin Ultra NVL576,每个机架包含576个Rubin Ultra GPU,总功耗达到600 kW,训练性能额定为5 EFLOPS FP8,推理性能达到15 EFLOPS NVFP4 [58] * 该超大规模机架采用两种互连方法:正交背板和CPO/NPO光互连 [58] * 正交背板通过单个面积约1平方米、厚度超过10毫米的PCB,集成GPU卡和NVSwitch卡之间的垂直和水平连接,消除了大部分铜缆 [59] * 该背板采用78层结构,通常由三个26层板组装而成,并使用M9和PTFE材料的混合堆叠以降低介电常数和损耗 [60] * 正交背板显著降低了每个NVL576机架的安装劳动力和错误率,同时使PCB价值含量增加20-25% [63] * CPO将光子引擎直接与交换ASIC集成,可以将1.6T可插拔收发器的功耗从约30 W降低到约9 W,与传统光学模块相比,能效提高3.5倍,可靠性提高10倍,信号完整性提高64倍 [65] * 英伟达宣布计划在2026年下半年推出Spectrum X Photonics(以太网CPO)和Quantum X InfiniBand CPO交换机 [66] * Spectrum X Photonics将提供409.6 Tb/s带宽,具有512个800 Gb/s端口;Quantum X InfiniBand CPO将提供115 Tb/s带宽,具有144个800 Gb/s端口 [66][87] * Rubin Ultra NVL576将采用结合纵向扩展CPO和横向扩展CPO的双重策略 [67] * 在整个NVL576机架(12个NVSwitch托盘)中,总共有648个光子引擎用于纵向扩展 [67] * 分析师估计,Rubin Ultra机架中的每个GPU卡大约需要5.5个光子引擎(包括纵向扩展和横向扩展),每个机架的光子引擎总数约为792个 [68] * NPO通过将光子引擎放置在附近的基板或外部模块上来缓解CPO的热挑战 [73] * 英伟达暗示NVL576可能提供CPO和NPO两种变体 [74] 7. 网络与通信:NVLink、Spectrum X和Quantum X * NVLink 6每链路提供1.6 Tb/s,而NVLink 7预计将增加到3.2 Tb/s [81] * NVLink支持缓存一致性,允许CPU和GPU直接共享内存 [82] * 在GTC 2026,英伟达预计将推出Spectrum X Photonics,即基于CPO的以太网产品线 [85] * 通过利用CPO,Spectrum X Photonics将光子引擎与交换机ASIC共封装,将每端口功耗降低至约9 W,与传统可插拔光学器件相比,部署速度提高30% [86] * 英伟达计划在2026年推出Quantum X800 CPO InfiniBand交换机,提供115 Tb/s带宽,具有144个800 Gb/s端口 [87][88] 8. GTC 2026可能发布的内容与未来展望 * 详细LPX机架规格,包括片上内存容量、RealScale网络拓扑、支持的模型类别以及256-LPU配置的热设计 [90] * 正式发布CPX和NVL144,展示百万令牌长上下文生成的演示 [91] * 详细比较Rubin Ultra NVL576变体,包括正交背板设计、基于CPO/NPO的版本、性能指标、电源和热特性 [92] * 正式宣布Spectrum X Photonics和Quantum X CPO的商业规格、交付时间表和产品就绪情况 [93] * 与软件供应商合作推出推理优化软件工具链 [95] * 未来挑战包括:能源消耗与可持续性(600 kW NVL576机架)、软件生态系统演变、供应链安全(M9和PTFE等先进材料)以及市场竞争(AMD MI400、Intel Gaudi3、Google TPU v6等)[96][97][99][100][101] 9. 行业影响 * AI服务器不再是单纯的芯片产品,而是结合了光学、材料、封装、热工程和系统设计的集成系统 [102] * 从NVL72到NVL576,主要平台升级大约每两年发生一次,产品设计必须模块化 [103] * 生态系统协作至关重要,英伟达与Groq、光通信供应商、PCB供应商、服务器制造商和云服务提供商的合作说明了广泛联盟的重要性 [104] * GTC 2026有望成为AI计算的另一个里程碑,通过LPX推理机架、CPX GPU和NVL144、Rubin Ultra NVL576以及相关的CPO/NPO和正交背板技术,英伟达将重新定义推理和训练的基础设施 [105]
未知机构:广发海外电子通信英伟达NVDABuy指引小幅超预期增-20260228
未知机构· 2026-02-28 10:55
**公司:英伟达 (NVIDIA)** * **业绩与指引小幅超预期**:F4Q26营收达681亿美元,高于分析师预期的674亿及彭博共识的662亿[3] 对F1Q27的营收指引为780亿美元,高于分析师预期的760亿及买方共识的750亿[1][2][3] * **增长动力明确**:增长驱动因素包括近期季度业绩展望不变、Rubin/VR200平台按计划推进、网络业务增强以及非tier-1 CSP财务状况改善[2] 管理层预计FY27营收将逐季增长,主要驱动因素为Blackwell、Rubin、CSP支出可见度延长及非CSP贡献增加[3] * **财务目标稳健**:公司重申FY2027的毛利率目标为mid-75%[1][3] F1Q27毛利率指引为75%[3] F4Q26毛利率/营业利润率分别为75.2%/67.7%[3] * **会计政策调整**:自F1Q27起,公司将在非GAAP业绩中纳入股权激励薪酬支出,分析师视此举措为正面信号[3] 但运营支出因此上升[2] * **市场反应与估值调整**:鉴于庞大的营收规模难以实现大幅超预期以及运营支出上升,股价在盘后交易中基本持平[2] 分析师将FY2027/2028 EPS预测分别调整-1%/+1%,基于33倍FY2027市盈率,将目标价微调至292美元[2] **行业:AI与数据中心** * **数据中心业务强劲**:F4Q26业绩主要得益于数据中心业务强劲增长[3] 其中网络业务营收达110亿美元,环比增长34%,同比增长263%[3] * **CSP资本支出巨大**:前五大云服务提供商2026年资本支出接近7000亿美元[4] 管理层强调只要CSP增加算力,就会为英伟达带来更多营收和现金流[4] * **行业趋势判断**:CEO认为行业正处于代理AI拐点,而物理AI将是下一波浪潮[4] 电力制约导致每瓦性能的重要性日益提升,并驱动部署决策[3] * **产品路线图与竞争**:即将到来的GTC 2026大会预计将成为催化剂[2] 预计将发布的新产品/技术包括:LPX机架以提升推理产品组合[4] Rubin NVL72得益于三星HBM4,将提升产品领先地位[4] NVL576将Scale Up范围扩大至超过72个CPU[4] CPO交换机预测2026/2027年达2万/10万部[4]
未知机构:广发海外电子通信GTC2026前瞻LPXCPO及PCB关键-20260227
未知机构· 2026-02-27 10:50
电话会议纪要研读总结 涉及的行业与公司 * **行业**: 人工智能硬件、半导体、高端计算、光通信、印刷电路板(PCB)、先进封装 * **核心公司**: 英伟达(NVIDIA)、Groq、三星 * **供应链公司**: Lumentum、波若威(Browave)、台虹、Sumitomo、AXTI、康宁(GLW)、中国FAU供应商、光模块/shuffle厂商、PCB/钻孔厂商[1][2][4][5] 核心观点与论据 1. 英伟达产品路线与性能预期 * **LPX机架强化推理产品组合**: 预计采用基于SRAM的片上内存,提供快速Token生成和超低延迟[1] * **LPX机架配置升级**: 预计GTC 2026展示的增强型LPX机架将搭载256个LPU(此前设计为64个),采用多层52LM9 Q-glass PTH PCB,单个LPU对应PCB价值量约200美元[2] * **VR200 NVL72性能飞跃**: 预计Rubin平台凭借HBM4(对比谷歌v8AX的HBM3e)及卓越系统设计,实现较GB300的**5倍推理性能提升**和**3.5倍训练性能提升**[2] * **CPX芯片设计变更**: 因GDDR7短缺,预计CPX芯片设计将转换为HBM4,但容量较常规Rubin更小[3] * **重申产品领先地位**: 认为三星HBM4进展顺利,Rubin时程不变,公司将继续提升产品领先地位[2] 2. 先进封装与互连技术演进 * **NVL576采用混合CCL正交背板**: 随着Rubin Ultra迁移至448G Serdes,中板可能采用基于PTFE及Q-glass M9的混合方案以改善信号传输,多个方案正在评估[3] * **正交背板价值量提升**: 此前估计每机柜正交背板价值量约**2.5万美元**,随着更高价值的PTFE基底CCL引入及更复杂制造要求,预计价值量将至少增加**20-25%**[3] * **光互连取代铜缆**: 预计英伟达将于**2H27**为Rubin Ultra NVL576引入CPO/NPO,用于架构内的Scale Up互连,机柜间互连预计将转向基于CPO或NPO的光互连[3] * **Scale Out CPO交换机前景乐观**: 预计新一代Scale Out CPO交换机将提供显著改善的散热性能和成本性能比,供应链将于**2H26/2027年**加速[4] * **上调CPO交换机销量预测**: 受英伟达激进推动及捆绑销售策略驱动,将英伟达Scale Out CPO交换机的预估销量上调至**2026年2万部**、**2027年10万部**(先前为2万/8万部)[4] 3. 供应链受益方向与投资建议 * **PCB与液冷公司受益**: 预计PCB、液冷(冷板)公司将因LPX机架等技术演进而受益[2] * **光通信产业链主要受益者**: 包括FAU、CW Laser、shuffle、InP基板及连接器供应商,如Lumentum、Browave、Sumitomo、AXTI及GLW[4] * **中国供应商角色**: 预计中国FAU供应商将成为主要份额获得者,光模块/shuffle厂商也将受益于销量增长[4] * **CCL与PCB价值量提升**: 看好台虹及本土领先CCL厂在PTFE-CCL开发中取得领先,同时看好PCB(每机柜**30万美元**)和钻孔(背板ASP **2+美元**,对比非AI的**0.2美元**)因背板价值量显著增加而受益[5] 其他重要但可能被忽略的内容 * **合作与许可**: 英伟达于**2025年12月**与Groq达成了非独家许可协议[1] * **CPO Shuffle Box ASP预期**: 波若威可能因高于预期的CPO shuffle box ASP(可能约**1万美元**)及作为主要市场份额供应商而受益[5]
中信证券:预计SST配电方案将逐步开启渗透
新浪财经· 2025-10-24 08:21
AI货币化与资本开支趋势 - AI货币化进程正在加速 [1] - 云厂商围绕AI的资本开支保持强劲势头 [1] - 全球数据中心新增装机量将保持快速增长趋势 [1] 智算中心配电技术发展 - 智算中心整体功率密度正加速提升 [1] - 高压直流配电方案是未来发展趋势 [1] - 固态变压器是高压直流配电技术方向下的最新技术路线 [1] 固态变压器技术优势 - 固态变压器在转换效率、建设周期、占地空间、新能源接入方面具备优势 [1] - 固态变压器较之高压直流系统、巴拿马电源等方案具备进一步优势 [1] - 固态变压器能够精准解决高功率时代下数据中心配电需求的痛点 [1] 技术渗透与标的选择 - 后续NV Rubin Ultra芯片及NVL576等进入批产阶段将推动SST配电方案逐步开启渗透 [1] - 标的选择建议围绕产品成熟度、技术同源积累、客户基础等方面进行筛选 [1]
华为徐直军:Atlas 950超节点算力超越英伟达
第一财经· 2025-09-18 17:16
超节点产品形态与市场地位 - 超节点已成为大型AI算力基础设施建设的主导性产品形态 [1] - 华为Atlas 950 SuperPoD算力规模为8192卡,预计今年四季度上市 [1] - 华为Atlas 960 SuperPoD算力规模为15488卡,预计2027年四季度上市 [1] Atlas 950 SuperPoD性能优势 - Atlas 950超节点卡的规模是英伟达NVL144的56.8倍 [1] - Atlas 950总算力是英伟达NVL144的6.7倍 [1] - Atlas 950内存容量达1152TB,是英伟达NVL144的15倍 [1] - Atlas 950互联带宽达16.3PB/s,是英伟达NVL144的62倍 [1] - 即使与英伟达计划2027年上市的NVL576相比,Atlas 950在各方面依然领先 [1] 公司战略与行业展望 - 公司对于为人工智能的长期快速发展提供可持续且充裕算力充满信心 [1]
华为徐直军:Atlas 950超节点算力超越英伟达
第一财经· 2025-09-18 17:09
产品发布与规划 - 华为超节点Atlas 950 SuperPoD算力规模为8192卡,预计于今年四季度上市 [1] - 华为超节点Atlas 960 SuperPoD算力规模为15488卡,预计2027年四季度上市 [1] - 超节点已成为大型AI算力基础设施建设的主导性产品形态 [1] 产品性能与竞争优势 - 相比英伟达NVL144,Atlas 950超节点卡规模是其56.8倍,总算力是其6.7倍 [1] - Atlas 950超节点内存容量达1152TB,是英伟达NVL144的15倍 [1] - Atlas 950超节点互联带宽达16.3PB/s,是英伟达NVL144的62倍 [1] - 即使与英伟达计划2027年上市的NVL576相比,Atlas 950超节点在各方面依然领先 [1] 公司战略与前景 - 公司对于为人工智能的长期快速发展提供可持续且充裕算力充满信心 [1] - 公司预计Atlas 950超节点至少在未来多年都将保持是全球最强算力的超节点 [1]
被抛弃的NVL72光互联方案
傅里叶的猫· 2025-07-17 23:41
GB200服务器硬件架构与互联技术分析 核心观点 - GB200服务器采用铜缆与光缆混合互联方案,其中加速器互连(NVLink)全面转向铜缆以降低成本,而后端网络长距离连接仍依赖光纤 [13][16] - NVL36x2成为主流配置,推动有源铜缆需求激增,光学收发器厂商增量有限 [19] - 前端网络存在配置过剩现象,客户可通过降低带宽节省单系统3.5k美元成本 [2] 前端网络 - 功能定位:承担与外部互联网、集群管理工具及存储系统的数据交互,采用常规以太网协议 [1] - 带宽配置:HGX H100单GPU带宽25-50Gb/s,GB200参考设计达200Gb/s(实际需求仅50Gb/s),总带宽200-800Gb/s [2] - 客户差异:超大规模企业采用自定义NIC方案,仅甲骨文使用Bluefield-3实现网络虚拟化 [4] 后端网络 - 技术迭代:初期沿用ConnectX-7网卡(400G),2025Q2将升级至ConnectX-8(800G)搭配Quantum-X800交换机 [6][12] - 材料选择:机架间长距离(>4米)必须使用光纤,铜缆仅适用于短距连接 [6] - 成本对比:Nvidia高端Infiniband交换机成本显著高于Broadcom Tomahawk系列以太网方案 [7] 加速器互连(NVLink) - 拓扑革新:NVL72采用1层扁平拓扑(72GPU),NVL36x2分组设计(2x36GPU),NVL576采用2层胖树结构(576GPU) [15] - 铜缆优势:相比光学方案节省单机架220万美元成本,降低19.4kW功耗,5184根铜缆实现900GB/s单向带宽 [16] - 连接技术:采用Amphenol Paladin HD 224G/s连接器与SkewClear EXD Gen 2电缆,解决信号干扰问题 [17][18] 带外管理网络 - 功能特性:独立运维网络,用于OS重装和硬件状态监控,数据量极小 [20] - 成本控制:采用RJ45铜缆连接,单根成本<1美元,无需光学组件 [21] MPO光纤连接器价值分析 - 400G方案:单GPU对应MPO价值量128美元(两层架构)至192美元(三层架构) [24] - 800G升级:采用16/24芯MPO后,单GPU价值量提升至256-381美元,1.6T方案需32/48芯MPO [25][29] - 规模测算:73728个GPU的三层架构下,MPO总芯数达702万,单GPU价值381美元 [30]