Workflow
纵向扩展网络
icon
搜索文档
共封装光学(CPO)-利用光技术扩展下一代互联能力 --- Co Packaged Optics (CPO) – Scaling with Light for the Next Wave of Interconnect
2026-01-04 19:35
**行业与公司** * **行业**:数据中心互连技术,特别是共封装光学(CPO)技术及其在AI网络中的应用[1][2][3] * **涉及公司**: * **技术/产品供应商**:英伟达(Nvidia)、博通(Broadcom)、Ayar Labs、Nubis、Celestial AI、Lightmatter、Xscape Photonics、Ranovus、Scintil[3][12][22] * **超大规模服务商/终端用户**:Meta、亚马逊(Amazon)[12][17][81] * **供应链/制造**:台积电(TSMC COUPE平台)[3][20] **核心观点与论据** * **CPO技术成熟度与市场定位**:CPO技术长期被视为变革者,但直到2025年才出现真正可部署的产品[5]。当前,可插拔光模块因其成本效益和互操作性仍是主流,但AI工作负载带来的巨大网络需求(速度、距离、密度、可靠性)将很快超越可插拔光模块的能力[5][6][7]。 * **CPO在横向扩展与纵向扩展网络中的不同价值**: * **横向扩展网络**:CPO能带来一定优势,但并非颠覆性应用[6][7]。其总拥有成本(TCO)和功耗节省对整体集群影响有限(例如,三层网络总集群功耗仅节省2%,成本仅降低3%),且面临现场维护、可靠性担忧以及客户议价权减弱等问题[27][50][53][59]。因此,预计短期内超大规模数据中心不会快速大规模采用横向扩展CPO系统[59]。 * **纵向扩展网络**:CPO被视为杀手级应用,是未来带宽增长的主要驱动力[6][7][60]。主要超大规模服务商已开始规划并承诺在本年代末部署基于CPO的纵向扩展解决方案[12][60]。CPO能解决铜缆互连的距离限制(目前最多2米)和带宽提升难题,实现更大的扩展域规模[8][61][62][63]。 * **CPO的驱动力与优势**: * **降低功耗**:通过将光引擎紧邻XPU或交换芯片放置,可消除数字信号处理器并使用更低功耗的SerDes,数据传输能耗相比DSP光模块可降低50%以上,目标降低高达80%[9][10]。具体案例:800G DR4光模块功耗约16-17W,而英伟达Q3450 CPO交换机中每800G带宽的光引擎+外部激光源功耗仅4-5W,降低73%[39]。Meta数据也显示类似节能效果(65%)[40][41]。 * **提升带宽密度与扩展性**:CPO能提供与铜缆同等或更优的带宽密度,并通过增加光纤、波分复用、高阶调制等多种路径扩展带宽,而铜缆仅能通过提升SerDes速率这一艰难路径[8][20][21][78]。 * **简化部署与高端口密度**:CPO交换机(如英伟达Quantum 3450有144个800G端口,Spectrum 6800有512个800G端口)可实现高基数网络,内部完成数据混洗,省去外部混洗箱和复杂线缆,有助于将网络从三层扁平化为两层,从而进一步节省成本和功耗[46][47][48]。 * **CPO的经济性分析(TCO)**: * **成本结构**:在AI集群(如GB300 NVL72)中,网络成本是第二大成本构成(三层网络占15%),其中光模块占网络成本的60%[32][33]。 * **组件成本对比**:实现相同带宽,CPO的光引擎组件成本(估算3.5-4万美元)可能低于传统光模块(7.2万美元),但交换机厂商的高毛利率(如60%)可能使终端CPO组件成本(8-9万美元)反超光模块方案,削弱成本节约效果[55][56][57]。 * **集群级节省有限**:尽管CPO能显著降低网络层级的成本和功耗(例如,两层网络下网络成本降46%,功耗降48%),但由于服务器成本占集群TCO主导(三层网络中占91%),导致整体集群成本节省仅个位数百分比(最高7%)[50][53][58]。 * **技术挑战与可靠性**: * **供应链与制造成熟度**:CPO大规模应用面临供应链(如激光器产能)和制造挑战(如光学端口架构、光纤耦合),是决定“何时”及“如何”部署的关键[14][79]。 * **可靠性数据与现场测试**:Meta与博通的测试显示CPO具有良好可靠性(在400万端口设备小时内零故障、零不可纠正错误,CPO的MTBF为260万设备小时,优于可插拔光模块的55万小时)[81][84][85]。但业界认为仍需更大规模的现场环境测试,以应对温度变化、灰尘等生产环境中的未知挑战,才能支持大规模投资[89][91][92][93][94]。 * **竞争格局与技术路线图**: * **英伟达的策略**:在GTC 2025发布了首款CPO横向扩展交换机,但在纵向扩展领域(如Rubin Ultra)仍坚持使用铜缆并极力避免采用光通信,计划至少持续到2027-2028年[25]。其横向扩展CPO产品被视为为未来大规模部署(可能聚焦于Feynman世代)进行的“演练”[95][96][97]。 * **市场潜力**:纵向扩展互连的带宽需求远高于横向扩展(例如,Blackwell NVLink每GPU带宽7.2 Tbit/s,是后端网络每GPU带宽的9倍),因此纵向扩展CPO的潜在市场规模预计将远超横向扩展网络[64][65][66][67]。 **其他重要内容** * **网络架构背景**:典型AI集群网络分为后端、前端和带外管理网络,其中后端网络对GPU间通信至关重要,占网络成本和功耗的主导份额(例如,在特定配置下占85%的成本和86%的功耗)[28][29][30][31]。 * **铜缆技术的现状与局限**:当前铜基方案(如NVLink)虽能提供高带宽(Blackwell达7.2 Tbit/s/GPU,Rubin将达14.4 Tbit/s/GPU),但受限于传输距离(≤2米),且通过开发更快SerDes来倍增带宽的路径充满挑战[8][61][70][78]。 * **报告结构**:本报告是CPO技术的详细指南,分为五个部分:TCO分析、技术介绍与实现、市场化关键技术、当前与未来产品及供应链、英伟达CPO供应链深度解析[15][16][18][20][22][23]。