回归技术--Scale Up割裂的生态

文章核心观点 - 文章核心观点是分析AI服务器Scale Up高速互联技术的市场格局、主流技术方案及其发展前景，重点探讨了英伟达NVLink、博通SUE和由AMD、Marvell等公司推动的UALink三大技术路线的竞争态势 [1][3][5] - 随着AI算力需求增长，Scale Up网络市场预计将从2024年的40亿美元以34%的年复合增长率增长至2029年的170亿美元，为非英伟达阵营的互联技术提供了巨大市场机会 [5][7] - Scale Up技术生态目前呈现割裂状态，未来竞争结果将取决于xPU市场份额划分、新网络标准演进以及客户的数据中心架构选择 [10][22] Scale Up和Scale Out概念 - Scale Up网络指同一台服务器或同一机架内GPU之间的高速通信网络，通过加速器互联使其协同工作，相当于一台大型超级计算机 [3] - 在Hopper时代以8卡机为主，服务器内部GPU可通信，服务器间需接交换机；Blackwell时代的GB200 NVL72则将一个机架内的72个GPU视为单一虚拟GPU，消除了服务器间通信瓶颈 [5] 主流Scale Up方案对比 - 英伟达采用专有NVLink协议实现GPU集群互联，在GB200/300的NVL72配置中，NVLink扩展至Blackwell GPU与Grace CPU的连接，预计未来将继续仅通过NVLink实现Scale Up [11] - AMD借助专有Infinity Fabric技术实现MI300 GPU的Scale Up，单个服务器最多连接8个GPU；即将推出的MI400将采用72-GPU机架配置，通过基于以太网的UALink实现Scale Up [12] - 谷歌通过芯片间互联技术实现机架内TPU Scale Up，借助光电路交换技术实现跨机架扩展；基于TPUv7架构的完整扩展pod可支持多达9216个TPU [13] - 亚马逊采用专有NeuronLink互联技术实现Scale Up通信，可在四个Trainium2实例间连接多达64个芯片；目前正与阿斯特拉实验室合作研发专用Scale Up交换机，预计2026年推出 [14] - 博通的SUE采用AI优化以太网，具备超低延迟和高性能，使用博通Tomahawk交换机，支持横向与纵向扩展的第六代产品已于6月出货 [17] - UALink是专为AI设计的内存语义互联技术，目前处于发展初期，由AMD、ALAB、MRVL及多家超大规模企业组成的联盟支持，基于AMD的Infinity Fabric，物理层依托以太网 [17] 国内超节点发展现状 - 目前国内已公布超节点方案的只有华为和阿里，华为有UB Mesh，阿里有ALink；其他国产GPU厂由于系统复杂性高且需要自有互联协议，面临较大挑战 [9] - 阿里欢迎其他厂家加入ALink生态，但其他厂家可能因竞争关系不愿兼容，同时受国际形势影响可能也不会选择国外互联总线，导致国内生态发展存在不确定性 [9] 互联介质选择：光与铜 - 当前Scale Up网络以铜缆为主，因其在短距离内具有纳秒级低延迟和成本优势，能避免光器件的额外成本和功耗 [20] - 单机架加速器部署规模上限约为72个，受架构、功耗与散热、物理密度和可靠性四大因素限制；若规模超过100个或需转向光连接 [20] - 预计铜缆将在Scale Up网络中长期使用，但当Scale Up突破单机架实现数百个GPU集群时，可能于2028年及以后引入光器件 [20][21] 市场竞争格局与关键因素 - Marvell在UALink生态中的主要贡献是准备做UALink switch，这是整个生态中最关键的一环 [22] - 当前市场处于早期阶段，架构、技术标准和客户偏好仍在变化中，最终胜出的Scale Up技术尚未确定，但市场规模足以支撑多家供应商共存 [22] - 长期来看，非英伟达阵营预计将从专有Scale Up网络逐步转向UAL、SUE等开源解决方案，这些技术有望在2027-2028年随着技术成熟及新ASIC产品放量而得到更广泛应用 [22]