文章核心观点 - AI硬件投资主线正从GPU算力转向数据流动效率,光通信(特别是CPO/NPO等先进封装技术)成为决定AI算力上限和新的投资焦点 [1][2][6] 算力瓶颈转向数据流动 - AI集群规模进入数万至数十万GPU时代,算力增长的瓶颈从计算转向芯片间、服务器间、数据中心间的通信 [1][3][6] - 以万亿参数模型为例,单次前向传播需在数千张GPU间同步数据,交换量可达TB级别,网络带宽、时延和功耗成为训练效率关键变量 [6] - 在AI集群中,GPU需高频协同,网络利用率可长期维持在80%以上,任何带宽瓶颈或时延抖动都会拖慢整体训练进度 [6] CPO与NPO崛起:光模块架构革命 - 传统可插拔光模块架构在AI超大规模集群中暴露功耗过高、带宽受限、信号损耗严重等问题 [9] - CPO(共封装光学)将光引擎与交换芯片封装在同一基板上,可缩短电信号传输距离,理论上降低互联功耗30-50%,并支持更高带宽密度 [10][11] - NPO(近封装光学)是折中方案,将光引擎与交换芯片封装在相邻位置,性能略逊但工艺难度更低,产业化节奏更快 [11][12] - 英伟达预计在GTC展示三款关键CPO交换机产品:Quantum 3400(InfiniBand+CPO,2027年初量产)、以太网6800(Ethernet+CPO,2026年底量产)、以太网6810(Ethernet+NPO,2026年底量产) [13] - 供应链准备加快,TSMC相关封装环节良率已提升至约90%,关键环节供应链已进入备货阶段,CPO正从技术验证进入产业化前夜 [14][15] 英伟达锁定供应链:光引擎需求或迎爆发 - 英伟达斥资40亿美元战略投资光通信巨头Coherent Corp与Lumentum,被视为供应链锁定策略 [16][17] - 随着架构升级,单GPU对应的光引擎数量将大幅提升:H100架构下约为1-2个,Blackwell架构下提升至约3个,Rubin Ultra阶段可能达到约5.5个 [18][19] - 互联带宽需求同步跃升:H100时代在400G至800G之间,Blackwell时代升至800G至1.6T,Rubin Ultra阶段进一步攀升至1.6T至3.2T [19] - 功耗优化目标逐步提高:Blackwell架构目标降低20%,Rubin Ultra阶段目标降低40% [19] - 光引擎可能从“配套组件”升级为“核心瓶颈”,市场对光模块产业链的估值体系可能需要重新定价 [20] AI算力主线的切换与投资启示 - 在AI集群规模扩张背景下,算力竞争核心从芯片算力迁移至数据互联,光通信成为核心基础设施 [21][22] - 若GTC大会释放明确CPO产品化信号,AI硬件下一条投资主线可能从GPU扩展至光模块产业链 [22] - 对投资者而言,关键在于识别“产业化拐点”,例如哪家公司的CPO/NPO方案率先通过大客户验证、哪个供应链环节可能制约量产节奏、哪种商业模式能在技术迭代中保持议价权 [22]
GTC前夜:光模块,正在成为AI算力最被低估的主线