大摩闭门会-与Meta-Marshall探讨网络基础设施
2026-04-13 14:12

纪要涉及的行业或公司 * 行业:数据中心网络基础设施行业,特别是面向AI时代的数据中心[1] * 公司/实体:Meta(会议参与者)、微软、谷歌、甲骨文、NVIDIA、Lumentum、Coherent、QTS、Switch、Lumen[3][4][8] 核心观点与论据 1 AI时代网络成本与流量模式发生根本性变化 * 网络成本在数据中心总支出中的占比持续走高,传统成本下降曲线失效[1] GPU性能提升缩短了设备更换周期,导致无法享受以往的成本下降红利[2] * 流量模式从以数据中心内部的东西向流量(约95%)为主,转变为跨数据中心流量显著增加 离开数据中心的流量比例从约5%上升至20%-25%[1][2][3] 2 AI数据中心网络架构由scale-up/out/across三个维度协同构建 * Scale-up:指GPU集群内部的连接,用于连接规模较小的服务器集群[3] * Scale-out:负责连接数据中心内部的不同机柜,形成统一中央处理系统[3] * Scale-across:指数据中心之间的流量传输和互联[3] * 三者协同工作,旨在实现统一强大的计算能力[3] 3 不同网络建设场景的决策主导方不同 * 跨区域数据中心互联(scale-across)通常由超大规模企业(如微软)主导 它们提供资金并主导决策,可能租赁暗光纤并用自有设备点亮[3][4] * 数据中心内部的横向(scale-out)和纵向扩展(scale-up),决策权取决于运营方 自有数据中心由甲骨文、微软或谷歌等公司自行决定 托管型数据中心则由运营商(如QTS、Switch)负责[4] 4 传统数据中心升级AI业务的最大瓶颈是液冷系统 * 升级传统数据中心以支持AI业务时,液冷系统的缺失是最大瓶颈,其改造难度与成本远超网络设备更新[1][6] * 网络设备的更换是必要成本,但客户已习惯其更新周期,挑战相对较小[6] 5 网络架构不统一与“超订阅”风险影响AI任务性能 * 网络架构在不同云厂商之间不统一[7] * 若只升级网络设备(提高“限速”)而不增加网络层级(增加“车道”),将引发“超订阅”风险,导致高延迟和拥堵[1][7] * 不优化的网络会为时间敏感的AI模型训练任务引入难以容忍的延迟[7] 6 铜缆与光纤将长期共存,但向光纤转型趋势确定 * 铜缆性能已接近物理极限,向光纤的长期转型趋势确定[1][7] * 但在数据中心内部,铜缆仍将与光器件长期共存,NVIDIA也承认铜缆在未来多年内仍将大量存在[1][7] * 在数据中心内部的横向扩展(scale-out)或跨节点扩展(scale-across)场景中,铜缆已基本被淘汰[7] 7 AI网络基础设施存在特定瓶颈及缓解时间表 * 核心瓶颈磷化铟激光器产能,用于激活光纤线路,其扩产周期需6-9个月[1][8] * 其他瓶颈:用于网络规模扩展的泵浦激光器或更先进的激光器类型,因企业尝试升级至更高速度而需求旺盛[8] * 缓解时间:预计2027年初网络瓶颈将开始获得缓解[1] 相较于需数年解决的电力瓶颈,网络瓶颈周期相对较短(通常在一年以内)[8] 纯光纤业务的产能扩张周期最长,约需两年[8] 其他重要内容 * AI数据中心基础设施的模块化程度有限,更换计算架构(如从NVIDIA Blackwell芯片更换为TPU)需要遵循特定设计,网络架构需进行调整,并非简单的“即插即用”[5] * 当前AI驱动的基础设施建设在规模、速度和压力上与互联网泡沫时期有相似之处,都经历了大规模、快速的建设周期[9][10]

大摩闭门会-与Meta-Marshall探讨网络基础设施 - Reportify