大摩闭门会-与Meta-Marshall探讨网络基础设施

纪要涉及的行业或公司 * 行业：数据中心网络基础设施行业，特别是面向AI时代的数据中心[1] * 公司/实体：Meta（会议参与者）、微软、谷歌、甲骨文、NVIDIA、Lumentum、Coherent、QTS、Switch、Lumen[3][4][8] 核心观点与论据 1 AI时代网络成本与流量模式发生根本性变化 * 网络成本在数据中心总支出中的占比持续走高，传统成本下降曲线失效[1] GPU性能提升缩短了设备更换周期，导致无法享受以往的成本下降红利[2] * 流量模式从以数据中心内部的东西向流量（约95%）为主，转变为跨数据中心流量显著增加离开数据中心的流量比例从约5%上升至20%-25%[1][2][3] 2 AI数据中心网络架构由scale-up/out/across三个维度协同构建 * Scale-up：指GPU集群内部的连接，用于连接规模较小的服务器集群[3] * Scale-out：负责连接数据中心内部的不同机柜，形成统一中央处理系统[3] * Scale-across：指数据中心之间的流量传输和互联[3] * 三者协同工作，旨在实现统一强大的计算能力[3] 3 不同网络建设场景的决策主导方不同 * 跨区域数据中心互联（scale-across）通常由超大规模企业（如微软）主导它们提供资金并主导决策，可能租赁暗光纤并用自有设备点亮[3][4] * 数据中心内部的横向（scale-out）和纵向扩展（scale-up），决策权取决于运营方自有数据中心由甲骨文、微软或谷歌等公司自行决定托管型数据中心则由运营商（如QTS、Switch）负责[4] 4 传统数据中心升级AI业务的最大瓶颈是液冷系统 * 升级传统数据中心以支持AI业务时，液冷系统的缺失是最大瓶颈，其改造难度与成本远超网络设备更新[1][6] * 网络设备的更换是必要成本，但客户已习惯其更新周期，挑战相对较小[6] 5 网络架构不统一与“超订阅”风险影响AI任务性能 * 网络架构在不同云厂商之间不统一[7] * 若只升级网络设备（提高“限速”）而不增加网络层级（增加“车道”），将引发“超订阅”风险，导致高延迟和拥堵[1][7] * 不优化的网络会为时间敏感的AI模型训练任务引入难以容忍的延迟[7] 6 铜缆与光纤将长期共存，但向光纤转型趋势确定 * 铜缆性能已接近物理极限，向光纤的长期转型趋势确定[1][7] * 但在数据中心内部，铜缆仍将与光器件长期共存，NVIDIA也承认铜缆在未来多年内仍将大量存在[1][7] * 在数据中心内部的横向扩展（scale-out）或跨节点扩展（scale-across）场景中，铜缆已基本被淘汰[7] 7 AI网络基础设施存在特定瓶颈及缓解时间表 * 核心瓶颈：磷化铟激光器产能，用于激活光纤线路，其扩产周期需6-9个月[1][8] * 其他瓶颈：用于网络规模扩展的泵浦激光器或更先进的激光器类型，因企业尝试升级至更高速度而需求旺盛[8] * 缓解时间：预计2027年初网络瓶颈将开始获得缓解[1] 相较于需数年解决的电力瓶颈，网络瓶颈周期相对较短（通常在一年以内）[8] 纯光纤业务的产能扩张周期最长，约需两年[8] 其他重要内容 * AI数据中心基础设施的模块化程度有限，更换计算架构（如从NVIDIA Blackwell芯片更换为TPU）需要遵循特定设计，网络架构需进行调整，并非简单的“即插即用”[5] * 当前AI驱动的基础设施建设在规模、速度和压力上与互联网泡沫时期有相似之处，都经历了大规模、快速的建设周期[9][10]