GTC前夜：光模块，正在成为AI算力最被低估的主线

文章核心观点 - AI硬件投资主线正从GPU算力转向数据流动效率，光通信（特别是CPO/NPO等先进封装技术）成为决定AI算力上限和新的投资焦点 [1][2][6] 算力瓶颈转向数据流动 - AI集群规模进入数万至数十万GPU时代，算力增长的瓶颈从计算转向芯片间、服务器间、数据中心间的通信 [1][3][6] - 以万亿参数模型为例，单次前向传播需在数千张GPU间同步数据，交换量可达TB级别，网络带宽、时延和功耗成为训练效率关键变量 [6] - 在AI集群中，GPU需高频协同，网络利用率可长期维持在80%以上，任何带宽瓶颈或时延抖动都会拖慢整体训练进度 [6] CPO与NPO崛起：光模块架构革命 - 传统可插拔光模块架构在AI超大规模集群中暴露功耗过高、带宽受限、信号损耗严重等问题 [9] - CPO（共封装光学）将光引擎与交换芯片封装在同一基板上，可缩短电信号传输距离，理论上降低互联功耗30-50%，并支持更高带宽密度 [10][11] - NPO（近封装光学）是折中方案，将光引擎与交换芯片封装在相邻位置，性能略逊但工艺难度更低，产业化节奏更快 [11][12] - 英伟达预计在GTC展示三款关键CPO交换机产品：Quantum 3400（InfiniBand+CPO，2027年初量产）、以太网6800（Ethernet+CPO，2026年底量产）、以太网6810（Ethernet+NPO，2026年底量产） [13] - 供应链准备加快，TSMC相关封装环节良率已提升至约90%，关键环节供应链已进入备货阶段，CPO正从技术验证进入产业化前夜 [14][15] 英伟达锁定供应链：光引擎需求或迎爆发 - 英伟达斥资40亿美元战略投资光通信巨头Coherent Corp与Lumentum，被视为供应链锁定策略 [16][17] - 随着架构升级，单GPU对应的光引擎数量将大幅提升：H100架构下约为1-2个，Blackwell架构下提升至约3个，Rubin Ultra阶段可能达到约5.5个 [18][19] - 互联带宽需求同步跃升：H100时代在400G至800G之间，Blackwell时代升至800G至1.6T，Rubin Ultra阶段进一步攀升至1.6T至3.2T [19] - 功耗优化目标逐步提高：Blackwell架构目标降低20%，Rubin Ultra阶段目标降低40% [19] - 光引擎可能从“配套组件”升级为“核心瓶颈”，市场对光模块产业链的估值体系可能需要重新定价 [20] AI算力主线的切换与投资启示 - 在AI集群规模扩张背景下，算力竞争核心从芯片算力迁移至数据互联，光通信成为核心基础设施 [21][22] - 若GTC大会释放明确CPO产品化信号，AI硬件下一条投资主线可能从GPU扩展至光模块产业链 [22] - 对投资者而言，关键在于识别“产业化拐点”，例如哪家公司的CPO/NPO方案率先通过大客户验证、哪个供应链环节可能制约量产节奏、哪种商业模式能在技术迭代中保持议价权 [22]