CPO，还有多远？

文章核心观点 - 共封装光学（CPO）技术被视为解决人工智能数据中心带宽、延迟和功耗危机的潜在终极方案，但其大规模应用面临用户怀疑、技术成熟度、运维风险及供应链变化等多重挑战，行业正处于从质疑向战略应用过渡的漫长转型期[1][2][25] CPO技术重新受到关注的原因 - AI作为现代数据中心核心工作负载的崛起，是CPO重回聚光灯下的关键驱动力，其需求比早期更聚焦[3][4] - CPO被明确视为解决AI数据中心具体问题的方案：随着交换ASIC向51.2T及更高发展，电互连面临损耗大、功耗高的问题，CPO通过缩短电路径有望实现更高能效和带宽密度[4] CPO宣称的优势与面临的质疑 - 能效优势：预计在800G至1.6T速率下，互连功耗可降低20%-40%，每个800G端口节省约5-15瓦电力，每台交换机整体功耗减少200-500瓦，在超大规模数据中心中累积节能可达数兆瓦级别[5] - 资本支出（CAPEX）优势：可减少对配电系统升级和冷却设施扩容的需求，并可能通过提升机架密度来减少交换机用量[5] - 运营支出（OPEX）优势：电费和制冷成本可能降低[5] - 用户质疑：CPO初期比可插拔方案更复杂，且舍弃了传统数据中心设备易于维护的前面板设计和“可插拔性”，早期CPO交换机的成本可能高于传统可插拔交换机[6] 不同潜在用户对CPO的态度 - 超大规模企业：如微软、Meta、谷歌和亚马逊，已在内部开展CPO试验，将其视为下一代AI基础设施和更广泛架构变革的关键使能要素，并愿意接受供应商锁定以换取显著性能提升[7][8][9] - 企业及托管运营商：目前几乎没有证据表明有CPO部署，其文化更注重互操作性、多供应商供应链和现场可维护性，倾向于等待技术“验证”、标准化和生态系统成熟[10] 过渡性技术（LPO与NPO）的角色 - 持谨慎态度的用户不会直接从可插拔方案跳至CPO，而是会采用线性驱动可插拔光学（LPO）和近封装光学（NPO）等过渡架构，这些技术在不过度牺牲模块化的前提下提供了部分优势[11][12] - LPO通过移除数字信号处理器（DSP）来降低功耗和延迟，但限制了传输距离并提高了对主机的要求[12] - NPO在不完全共封装的前提下提供邻近优势，降低了热管理和制造复杂性风险[13] - 这些过渡技术将决定CPO的部署节奏，对企业运营商而言，CPO被视为“下一个十年的技术”[13] CPO部署的技术障碍与演进 - 热管理挑战：是当前阻碍CPO部署的最大因素之一，温度不稳定会导致光器件性能退化[14] - 可插拔性的潜在回归：光互联论坛（OIF）推动的外置光源（ELSFP）方案将激光器置于较冷区域单独维护，是一种折中方案，可能通过“后门”重新引入可插拔性，缓解用户的“维护焦虑”[14] 主要供应商的影响与供应链焦虑 - 供应商影响力：博通和英伟达是推动CPO叙事最具影响力的供应商，它们通过产品平台和公开演示塑造行业观念，并充当“信心引擎”[15] - 供应链焦虑：CPO改变了采购模式，可能使运营商从依赖多家可插拔模块供应商转向依赖单一交换机厂商的集成系统，引发对“供应商锁定”的担忧[16][17] - 行业组织推动的互操作性工作对建立多供应商可信度至关重要[18] CPO规模部署的三阶段预测 - 第一阶段：从怀疑到接受（2026–2028年）：CPO非主流，AI网络扩展迫使业界更认真评估，限制因素包括激光器、封装良率、散热设计等未解决问题[23] - 第二阶段：从接受到依赖（2029–2032年）：随着AI集群向100T级扩展，CPO或将成为唯一可行的技术[23] - 第三阶段：从依赖到优化（2032–2035年）：CPO成为主流，讨论焦点转向架构优劣，非超大规模运营商开始大规模部署[23] 影响CPO前景的潜在变数 - AI本身的演变，如小型语言模型兴起或AI工作负载分布式化导致对高速互连需求下降，可能使CPO沦为小众技术[23] - 机架内铜缆技术的持续演进可能延缓光纤的全面渗透，光纤接管机架的速度和深度存在不确定性[24]