Workflow
Scale up
icon
搜索文档
超节点时代来临:AI算力扩容!申万宏源:关注AI芯片与服务器供应商
格隆汇· 2025-07-10 16:09
算力需求趋势 - 大模型参数爆炸式增长推动算力需求从单点向系统级整合加速转变 [1] - Scale-up与Scale-out成为算力扩容两大核心维度 Scale-up追求硬件紧密耦合 Scale-out实现弹性扩展支撑松散任务 [1] - Scale-up突破传统单服务器、单机柜限制进入"超节点"时代 节点内GPU数量从2卡增至8卡 实现跨服务器、跨机柜互联 [1] 技术架构与硬件差异 - 超节点是算力网络系统在机柜层面的Scale-up 节点内采用铜连接与电气信号 跨机柜引入光通信 [2] - Scale-up与Scale-out硬件边界为NIC网卡 外部依赖光模块、以太网交换机等设备 架构设计、协议标准存在本质差异 [2] - 芯片厂商分化明显 英伟达、博通、华为、海光深耕Scale-up 以太网厂商(博通、海思、盛科通信)聚焦Scale-out [2] 产业链整合动态 - 英伟达近6年完成8宗并购 覆盖网络技术(Mellanox)、软件定义网络(Cumulus)、行业应用(Parabricks)等领域 构建芯片到应用闭环生态 [2] - 海光信息拟吸收合并中科曙光 形成CPU+DCU与服务器+云基础设施协同 完成从芯到云全产业链部署 [3] - AI芯片厂商强化纵向整合 但不会切入代工业务 如AMD收购ZT System后剥离代工板块 [4] 产业链分工与投资机会 - 超节点趋势下产业链分工细化 板卡设计能力成为核心差异化要素 代工环节分化为板卡设计与机柜代工供应商 [4] - 建议关注硬件互联与场景适配双线布局 标的包括海光信息、中科曙光、浪潮信息、紫光股份等AI芯片与服务器供应商 [4]
什么是Scale Up和Scale Out?
半导体行业观察· 2025-05-23 09:21
AI Pod概念与架构 - AI Pod是预配置的模块化基础设施解决方案,集成计算、存储、网络和软件组件以优化AI工作负载部署效率[2] - 每个机架可视为一个AI Pod,纵向扩展(Scale-Up)指单个Pod内增加处理器/内存等资源,横向扩展(Scale-Out)指增加更多Pod节点[4] - XPU为通用处理器术语,涵盖CPU/GPU/NPU/TPU/DPU/FPGA/ASIC等类型,单个XPU刀片通常含2-8个XPU设备[4][6] 扩展模式技术对比 纵向扩展 - 优势:直接添加资源即可扩展,适合传统架构应用;可充分利用高性能服务器硬件(如高效CPU、AI加速器、NVMe存储)[8] - 限制:存在物理硬件瓶颈(如内存或CPU利用率无法线性平衡),托管成本随服务器规模显著上升[8] - 适用场景:内存/处理密集型的数据库服务或容器化应用,示例配置从1CPU/2GB内存扩展至4CPU/8GB内存[8][9] 横向扩展 - 优势:支持长期增量扩展,易缩减规模释放资源,可使用商用服务器降低成本[12] - 挑战:需重构单体架构应用,网络复杂性和跨节点数据一致性管理难度增加[13] - 通信需求:Pod内需极低延迟(如NVLink),Pod间依赖高带宽方案(如InfiniBand/超级以太网)[11][13] 关键硬件与互连技术 - NVIDIA B200 GPU晶体管数量超2000亿,体现XPU设备的高计算密度[5] - InfiniBand与超级以太网竞争数据中心互连标准,后者由AMD/英特尔/微软等推动,强调开放性与互操作性[9][13] - UALink可能成为跨XPU供应商的通用高速互连方案,但NVIDIA对其前景持保留态度[13]
Astera Labs (ALAB) Conference Transcript
2025-05-21 05:30
纪要涉及的行业和公司 - **行业**:半导体、人工智能基础设施、AI连接性解决方案 - **公司**:Astera Labs、NVIDIA、JPMorgan、Mellanox、Sandforce、LSI、Marvell 纪要提到的核心观点和论据 公司介绍 - Astera Labs自2017年2月成立以来,使命是为云规模的基础设施提供专门的AI连接性解决方案,产品组合包括IO和信号调节设备、以太网重定时器、CXL控制器等,去年10月推出智能织物交换产品,产品基于软件定义架构Kosmos,还加入了NVIDIA的NVLink融合生态系统[12][13][14][16] AI基础设施挑战 - 推理处理需求增加带来计算需求增长,大规模集群扩展与解决扩展连接性问题直接相关;全球在基础设施上投入大量资金,面临投资回报率、功耗和集群利用率等问题;大量专业AI加速器出现,将其集成到云基础设施成本高、时间长[28][30][31][32] UA Link介绍 - UA Link是一个开放、高带宽、低延迟的连接架构,旨在解决AI基础设施中扩展连接性的挑战,由Astera Labs等组成的UA Link联盟推动其发展,目标是连接多达一千个XPUs,已发布首个协议规范,支持200Gbps每通道和800Gbps每端口[5][38][40] UA Link优势 - **高效集群扩展**:采用简单的内存语义协议,与PCI Express和基于以太网的网络语义协议相比,更适合多处理应用,能提高集群效率,支持大规模AI工作负载;开关架构简单,优化了整个交换功能,提供一致和响应式的用户体验[45][47][48][49] - **优化基础设施效率**:数据事务针对多处理进行优化,减少了地址信息,提高了链路利用率;架构和堆栈设计简单,减少了硅片面积,降低了系统采购成本和功耗,有助于解决大规模AI基础设施建设中的功耗问题[51][52][53][54] - **降低集成成本和加快上市时间**:标准规范使多个XPUs可受益于相同的扩展基础设施,超大规模数据中心运营商可统一基础设施,系统供应商可选择最佳组件生态系统;支持弹性供应链,多个供应商可提供可互操作的解决方案[55][56] 市场机会 - 去年10月推出的Scorpio智能织物交换产品系列预计到2028年2月有50亿美元的市场机会,其中一半由Scorpio P系列用于混合流量AI头节点连接应用,另一半由Scorpio X系列用于加速器到加速器的扩展连接;UA Link将解锁额外的数十亿美元连接性机会,预计每个加速器的硅美元含量机会在数百美元范围内[74][75][77][78] 产品生态系统 - UA Link解决方案生态系统包括交换机硅、信号调节设备、IO小芯片、机架到机架连接解决方案和管理软件,将带来数十亿美元的连接性机会[61][62][63] 公司愿景 - Astera Labs致力于成为AI机架规模连接性解决方案的领先供应商,将继续增加新产品线,优化扩展和扩展AI连接性应用,通过Cosmos软件统一智能连接平台,提供一致的开发和用户体验;支持UA Link和NVLink等多种协议,为客户提供多样化的解决方案[66][67][68][71] 其他重要但是可能被忽略的内容 - 会议记录可能会在公司网站上复制,外部演讲者的观点仅代表个人,不代表JPMorgan;会议包含前瞻性陈述,存在风险和不确定性,信息截至当天日期,除非法律要求,公司无义务更新[1] - 会议不允许媒体记者和JPMorgan投资和企业银行成员参加[2] - 会议重播将在JPMorgan市场和Astera的投资者关系网站上提供[96]