AI Datacenter Networking Chips
搜索文档
科技未来:AI 数据中心网络入门指南-Future of Tech AI Datacenter Networking Primer
2026-03-26 21:20
AI数据中心网络行业研究纪要总结 涉及的行业与公司 * **行业**:AI数据中心网络,特别是AI数据中心网络芯片与硬件,是AI基础设施的关键组成部分[1][10] * **主要提及的公司**: * **全球**:NVIDIA (NVDA), Broadcom (AVGO), Marvell (MRVL), Arista Networks (ANET), Astera Labs (ALAB), AMD, Google, Meta, Microsoft, AWS[4][5][8][66][67][71][74][77][80] * **中国**:华为 (Huawei), 腾讯 (Tencent), 字节跳动 (ByteDance), 阿里巴巴 (Alibaba), 澜起科技 (Montage Technology)[4][5][82][84][113][114][115][117] * **投资建议覆盖**:海光信息 (Hygon, 688041.CH), 寒武纪 (Cambricon, 688256.CH), NVIDIA (NVDA), Broadcom (AVGO)[7][8][147] 核心观点与论据 市场前景与增长动力 * **AI数据中心网络成为关键增长领域**:随着AI模型规模和计算需求指数级增长,单一芯片已无法满足需求,现代AI工作负载需要大规模加速器集群作为统一计算结构运行,这使得AI数据中心网络成为系统级效率的关键决定因素,预计将成为未来多年增长最快的领域之一[1] * **市场规模庞大且高速增长**:AI数据中心网络芯片总潜在市场规模预计到2030年将达到约1000亿美元,2025-2030年复合年增长率约为30%[2][15]。整个AI数据中心网络硬件TAM预计在2030年达到约2000亿美元,2025-2030年CAGR约为30%[15] * **复合带宽效应驱动需求**:向集群中添加单个加速器不仅会增加点对点带宽,还会在集群更高层级上成倍增加流量,需要添加更多网络组件。当芯片数量超过一定阈值时,还需要添加更多连接层。这种复合行为意味着总网络吞吐量相对于部署的芯片数量呈指数级增长[2][23] * **网络支出占比显著**:在基于NVIDIA GPU的系统中,网络组件约占机架级总资本支出的20%,而在基于ASIC的机架中,这一比例约为37%,反映了ASIC供应商通常比NVIDIA收取更低的利润率。按加权平均计算,网络组件约占机架系统总成本的25%[13] * **集群带宽快速翻倍**:Broadcom预计AI集群的总带宽将每2年翻一番[14][19] 网络架构与连接类型 * **三层连接架构**:AI数据中心网络架构可分为三个主要连接层:数据中心到数据中心连接、xPU到xPU连接以及以CPU为中心的连接[3][36] * **xPU到xPU连接最为关键**:这是AI时代最具战略意义的层,直接决定了AI模型训练的效率和规模。该层进一步细分为:机盘内连接、机盘到机盘连接和机架到机架连接[38][40] * **网络拓扑演变**:随着集群规模扩大,网络配置通常从两层胖树拓扑演进到三层胖树拓扑以维持全二分带宽。从两层迁移到三层架构,交换机与xPU的带宽比从大约3:1增加到5:1,光模块与xPU的带宽比从4:1增加到6:1,进一步放大了网络支出[24][31][33][34] 竞争格局与关键技术协议 * **协议多样化**:网络协议领域远未收敛,存在多种技术,包括NVLink、InfiniBand、Ethernet、UALink、PCIe、CXL和华为的UB协议,每种都在带宽、延迟、开放性和成本结构之间进行不同的权衡[47] * **Scale-Up网络竞争激烈**:NVIDIA的NVLink凭借紧密的软硬件集成和已验证的性能设定了性能基准,但行业参与者正在推动替代方案。UALink和基于以太网的SUE架构旨在通过推广开放生态系统、减少供应商锁定和降低成本结构来挑战NVIDIA。PCIe持续获得寻求成熟、低成本解决方案的云服务提供商的青睐[4][90] * **中国市场的独特路径**:华为开发了专有的统一总线协议,设计为跨多个网络层的统一架构,反映了在单芯片性能落后的情况下对更大集群规模的战略重视[4][51]。中国缺乏占主导地位的GPGPU供应商,因此云服务提供商在定义自己的Scale-Up连接标准方面扮演了更积极的角色[109][110] * **以太网在Scale-Out网络中的份额提升**:预计未来三到五年,以太网在Scale-Out结构中的份额将上升至40-50%[135]。现代以太网架构通过实现超低延迟、无损数据传输和先进的拥塞管理来缩小与InfiniBand的性能差距[135][140] 关键硬件组件与供应商 * **核心硬件模块**:AI数据中心网络依赖于紧密集成的硬件模块——交换机、网卡/DPU、光模块和重定时器/DSP。在网络硬件中,芯片价值约占一半[14][16][56] * **模块级市场构成**:连接/光模块和交换机预计是两个最大的细分市场,各占网络TAM的约35-45%。网卡/DPU占据剩余的约20%[17] * **主要供应商格局**: * **Broadcom**:拥有最全面的AIDC网络芯片组合,主导商用以太网交换芯片市场,并有望从CPO趋势中受益[67][68][69] * **NVIDIA**:通过其垂直集成的AI平台战略在AIDC网络中占据领先地位,控制着InfiniBand生态系统,并正在扩展其以太网产品组合[71][72] * **Marvell**:提供高性能网络和存储芯片,在Scale-Out和新兴的Scale-Up结构中都是一家强大的参与者[74][76] * **华为**:是中国AIDC网络创新的主要推动者,开发了基于UB协议和定制拓扑设计的专有网络架构[82][83] * **Astera Labs**:PCIe连接芯片的主要供应商,其Scorpio X系列PCIe交换机是目前唯一专门用于在AI集群中实现Scale-Up连接的商用PCIe交换机[80] * **澜起科技**:正在从传统的内存接口芯片供应商扩展到AI网络无晶圆厂领域,已成为全球第二大PCIe重定时器供应商[84] 投资建议 * 报告给予海光信息和寒武纪“跑赢大盘”评级,目标价分别为280元人民币和2000元人民币[7] * 报告给予NVIDIA和Broadcom“跑赢大盘”评级,目标价分别为300美元和525美元[8] 其他重要内容 * **MoE架构增加网络需求**:MoE模型的兴起加强了对优越网络的依赖。MoE模型引入了结构稀疏性,需要在整个结构上进行频繁的全对全通信。因此,预计AI基础设施价值链将发生结构性转变,向网络供应商倾斜[143] * **技术发展趋势**:光模块架构正在从传统的可插拔光模块向LPO和CPO演进。CPO将光学引擎与交换ASIC甚至未来的xPU直接封装在一起,减少了电功耗并实现了更高的端口密度[63] * **风险提示**:对于覆盖的中国公司,风险包括无法开发下一代产品、因被列入美国实体清单导致的供应链风险、中国宏观经济弱于预期导致信创服务器部署放缓,以及可能面临更严格的制裁[155]