Scale out

搜索文档
超节点时代来临:AI算力扩容!申万宏源:关注AI芯片与服务器供应商
格隆汇· 2025-07-10 16:09
算力需求趋势 - 大模型参数爆炸式增长推动算力需求从单点向系统级整合加速转变 [1] - Scale-up与Scale-out成为算力扩容两大核心维度 Scale-up追求硬件紧密耦合 Scale-out实现弹性扩展支撑松散任务 [1] - Scale-up突破传统单服务器、单机柜限制进入"超节点"时代 节点内GPU数量从2卡增至8卡 实现跨服务器、跨机柜互联 [1] 技术架构与硬件差异 - 超节点是算力网络系统在机柜层面的Scale-up 节点内采用铜连接与电气信号 跨机柜引入光通信 [2] - Scale-up与Scale-out硬件边界为NIC网卡 外部依赖光模块、以太网交换机等设备 架构设计、协议标准存在本质差异 [2] - 芯片厂商分化明显 英伟达、博通、华为、海光深耕Scale-up 以太网厂商(博通、海思、盛科通信)聚焦Scale-out [2] 产业链整合动态 - 英伟达近6年完成8宗并购 覆盖网络技术(Mellanox)、软件定义网络(Cumulus)、行业应用(Parabricks)等领域 构建芯片到应用闭环生态 [2] - 海光信息拟吸收合并中科曙光 形成CPU+DCU与服务器+云基础设施协同 完成从芯到云全产业链部署 [3] - AI芯片厂商强化纵向整合 但不会切入代工业务 如AMD收购ZT System后剥离代工板块 [4] 产业链分工与投资机会 - 超节点趋势下产业链分工细化 板卡设计能力成为核心差异化要素 代工环节分化为板卡设计与机柜代工供应商 [4] - 建议关注硬件互联与场景适配双线布局 标的包括海光信息、中科曙光、浪潮信息、紫光股份等AI芯片与服务器供应商 [4]
什么是Scale Up和Scale Out?
半导体行业观察· 2025-05-23 09:21
AI Pod概念与架构 - AI Pod是预配置的模块化基础设施解决方案,集成计算、存储、网络和软件组件以优化AI工作负载部署效率[2] - 每个机架可视为一个AI Pod,纵向扩展(Scale-Up)指单个Pod内增加处理器/内存等资源,横向扩展(Scale-Out)指增加更多Pod节点[4] - XPU为通用处理器术语,涵盖CPU/GPU/NPU/TPU/DPU/FPGA/ASIC等类型,单个XPU刀片通常含2-8个XPU设备[4][6] 扩展模式技术对比 纵向扩展 - 优势:直接添加资源即可扩展,适合传统架构应用;可充分利用高性能服务器硬件(如高效CPU、AI加速器、NVMe存储)[8] - 限制:存在物理硬件瓶颈(如内存或CPU利用率无法线性平衡),托管成本随服务器规模显著上升[8] - 适用场景:内存/处理密集型的数据库服务或容器化应用,示例配置从1CPU/2GB内存扩展至4CPU/8GB内存[8][9] 横向扩展 - 优势:支持长期增量扩展,易缩减规模释放资源,可使用商用服务器降低成本[12] - 挑战:需重构单体架构应用,网络复杂性和跨节点数据一致性管理难度增加[13] - 通信需求:Pod内需极低延迟(如NVLink),Pod间依赖高带宽方案(如InfiniBand/超级以太网)[11][13] 关键硬件与互连技术 - NVIDIA B200 GPU晶体管数量超2000亿,体现XPU设备的高计算密度[5] - InfiniBand与超级以太网竞争数据中心互连标准,后者由AMD/英特尔/微软等推动,强调开放性与互操作性[9][13] - UALink可能成为跨XPU供应商的通用高速互连方案,但NVIDIA对其前景持保留态度[13]