报告行业投资评级 - 增持(维持) [1] 报告的核心观点 - 面向AI训练集群诉求华为推出UB Mesh架构 其采用nD - FullMesh拓扑结构 降低信号传输开销和成本 提高系统可靠性 且通过统一总线实现多组件互连与资源动态池化 [6] - UB Mesh机架架构以单机柜64个NPU为核心 可形成4D层级互连和8000卡规模的集群 满足大规模LLM训练需求 [2] - 相同训练基准下 UB Mesh较Clos实现2.04倍的成本效益提升 降低网络基础设施成本和运营成本 [3] - 芯片及网络架构创新持续推进 昇腾有望推动产业链相关公司业绩及估值双升 获得国内算力芯片较大市场份额 打开国产AI服务器零部件成长空间 [7] 根据相关目录分别进行总结 UB Mesh架构介绍 - UB Mesh是全新AI数据中心网络架构 采用nD - FullMesh拓扑结构 从单板内1D全连接扩展至跨机柜的4D/5D拓扑 多数传输0 - 2跳内完成 降低信号传输开销 且最大限度利用短距离直接互连 降低成本和提高可靠性 [6] - UB Mesh主要组件通过统一总线Unified Bus连接 NPU和CPU配备UB IO控制器 还提供低基数和高基数交换机 实现多组件互连与资源动态池化 消除协议转换需要 降低开销 [6] UB Mesh机架架构 - UB Mesh机架架构以单机柜64个NPU为核心 机架内8个NPU板各集成8个NPU形成2D FullMesh互连 CPU独立部署 可实现CPU/NPU比例灵活调整及资源池化 机架间通过低基数交换机聚合接口 形成4D层级互连 四机架构成Pod后总规模达1024个NPU 还可构建8000卡规模的集群 [2] UB Mesh性能与成本效益 - 相同训练基准下 机架内2D - FM架构与Clos架构训练性能差距在7%以内 硬件成本低 机架间互连性能与Clos架构几乎相同 且可调整带宽比例匹配特定需求 [3] - 从系统全生命周期成本看 UB Mesh将网络基础设施成本比例从67%降至20% 节省98%的高性能交换机和93%的光模块 运营成本降低35% 较Clos实现2.04倍的成本效益提升 [3] 昇腾相关情况 - 华为正筹备昇腾920系列芯片 基于中芯国际6nm工艺打造 单卡算力超900TFlops(BF16) 内存升级到HBM3 单卡提供400GB/s带宽 [7] - 华为CloudMatrix 384超节点提供300PFlops的密集BF16计算能力 硅基流动基于该超节点及SiliconLLM运行的DeepSeek - R1单卡Decode吞吐突破1920 Tokens/s 比肩H100部署性能 [7] - 在国内算力需求高增 海外算力芯片供应不稳定背景下 昇腾有望获得国内算力芯片较大市场份额 打开国产AI服务器零部件成长空间 [7] 产业链相关公司 - 中芯国际、华丰科技、南亚新材、芯碁微装、深南电路、兴森科技、欧陆通 [7]
电子行业跟踪周报:架构级创新,华为UBMesh直击大模型训练的“通信墙”与成本痛点-20250511
东吴证券·2025-05-11 22:05