行业与公司 * 行业:数据中心互连技术,特别是共封装光学(CPO)技术及其在AI网络中的应用[1][2][3] * 涉及公司: * 技术/产品供应商:英伟达(Nvidia)、博通(Broadcom)、Ayar Labs、Nubis、Celestial AI、Lightmatter、Xscape Photonics、Ranovus、Scintil[3][12][22] * 超大规模服务商/终端用户:Meta、亚马逊(Amazon)[12][17][81] * 供应链/制造:台积电(TSMC COUPE平台)[3][20] 核心观点与论据 * CPO技术成熟度与市场定位:CPO技术长期被视为变革者,但直到2025年才出现真正可部署的产品[5]。当前,可插拔光模块因其成本效益和互操作性仍是主流,但AI工作负载带来的巨大网络需求(速度、距离、密度、可靠性)将很快超越可插拔光模块的能力[5][6][7]。 * CPO在横向扩展与纵向扩展网络中的不同价值: * 横向扩展网络:CPO能带来一定优势,但并非颠覆性应用[6][7]。其总拥有成本(TCO)和功耗节省对整体集群影响有限(例如,三层网络总集群功耗仅节省2%,成本仅降低3%),且面临现场维护、可靠性担忧以及客户议价权减弱等问题[27][50][53][59]。因此,预计短期内超大规模数据中心不会快速大规模采用横向扩展CPO系统[59]。 * 纵向扩展网络:CPO被视为杀手级应用,是未来带宽增长的主要驱动力[6][7][60]。主要超大规模服务商已开始规划并承诺在本年代末部署基于CPO的纵向扩展解决方案[12][60]。CPO能解决铜缆互连的距离限制(目前最多2米)和带宽提升难题,实现更大的扩展域规模[8][61][62][63]。 * CPO的驱动力与优势: * 降低功耗:通过将光引擎紧邻XPU或交换芯片放置,可消除数字信号处理器并使用更低功耗的SerDes,数据传输能耗相比DSP光模块可降低50%以上,目标降低高达80%[9][10]。具体案例:800G DR4光模块功耗约16-17W,而英伟达Q3450 CPO交换机中每800G带宽的光引擎+外部激光源功耗仅4-5W,降低73%[39]。Meta数据也显示类似节能效果(65%)[40][41]。 * 提升带宽密度与扩展性:CPO能提供与铜缆同等或更优的带宽密度,并通过增加光纤、波分复用、高阶调制等多种路径扩展带宽,而铜缆仅能通过提升SerDes速率这一艰难路径[8][20][21][78]。 * 简化部署与高端口密度:CPO交换机(如英伟达Quantum 3450有144个800G端口,Spectrum 6800有512个800G端口)可实现高基数网络,内部完成数据混洗,省去外部混洗箱和复杂线缆,有助于将网络从三层扁平化为两层,从而进一步节省成本和功耗[46][47][48]。 * CPO的经济性分析(TCO): * 成本结构:在AI集群(如GB300 NVL72)中,网络成本是第二大成本构成(三层网络占15%),其中光模块占网络成本的60%[32][33]。 * 组件成本对比:实现相同带宽,CPO的光引擎组件成本(估算3.5-4万美元)可能低于传统光模块(7.2万美元),但交换机厂商的高毛利率(如60%)可能使终端CPO组件成本(8-9万美元)反超光模块方案,削弱成本节约效果[55][56][57]。 * 集群级节省有限:尽管CPO能显著降低网络层级的成本和功耗(例如,两层网络下网络成本降46%,功耗降48%),但由于服务器成本占集群TCO主导(三层网络中占91%),导致整体集群成本节省仅个位数百分比(最高7%)[50][53][58]。 * 技术挑战与可靠性: * 供应链与制造成熟度:CPO大规模应用面临供应链(如激光器产能)和制造挑战(如光学端口架构、光纤耦合),是决定“何时”及“如何”部署的关键[14][79]。 * 可靠性数据与现场测试:Meta与博通的测试显示CPO具有良好可靠性(在400万端口设备小时内零故障、零不可纠正错误,CPO的MTBF为260万设备小时,优于可插拔光模块的55万小时)[81][84][85]。但业界认为仍需更大规模的现场环境测试,以应对温度变化、灰尘等生产环境中的未知挑战,才能支持大规模投资[89][91][92][93][94]。 * 竞争格局与技术路线图: * 英伟达的策略:在GTC 2025发布了首款CPO横向扩展交换机,但在纵向扩展领域(如Rubin Ultra)仍坚持使用铜缆并极力避免采用光通信,计划至少持续到2027-2028年[25]。其横向扩展CPO产品被视为为未来大规模部署(可能聚焦于Feynman世代)进行的“演练”[95][96][97]。 * 市场潜力:纵向扩展互连的带宽需求远高于横向扩展(例如,Blackwell NVLink每GPU带宽7.2 Tbit/s,是后端网络每GPU带宽的9倍),因此纵向扩展CPO的潜在市场规模预计将远超横向扩展网络[64][65][66][67]。 其他重要内容 * 网络架构背景:典型AI集群网络分为后端、前端和带外管理网络,其中后端网络对GPU间通信至关重要,占网络成本和功耗的主导份额(例如,在特定配置下占85%的成本和86%的功耗)[28][29][30][31]。 * 铜缆技术的现状与局限:当前铜基方案(如NVLink)虽能提供高带宽(Blackwell达7.2 Tbit/s/GPU,Rubin将达14.4 Tbit/s/GPU),但受限于传输距离(≤2米),且通过开发更快SerDes来倍增带宽的路径充满挑战[8][61][70][78]。 * 报告结构:本报告是CPO技术的详细指南,分为五个部分:TCO分析、技术介绍与实现、市场化关键技术、当前与未来产品及供应链、英伟达CPO供应链深度解析[15][16][18][20][22][23]。
共封装光学(CPO)-利用光技术扩展下一代互联能力 --- Co Packaged Optics (CPO) – Scaling with Light for the Next Wave of Interconnect