华为CloudMatrix384
搜索文档
中信证券:看好超节点服务器整机环节 建议关注产业链相关公司
智通财经网· 2025-12-19 08:55
核心观点 - 超节点服务器作为适配MoE架构模型的底层AI基础设施基本计算单元,有望快速上量,并通过更高的技术附加值和系统整合角色提升整机环节的价值量 [1][5][7] 技术背景与需求 - MoE(混合专家)架构成为主流AI大模型追求更大参数与更高效率的选择,其专家并行计算模式在优化计算与访存瓶颈的同时引入了新的通信难题,催生了基于Scale up网络的超节点解决方案 [2] - 相较于传统八卡服务器,超节点面临海量芯片协同带来的系统散热压力、光铜混合互连的稳定性问题以及多零部件长期运行的可靠性隐患等系统性挑战 [2] 市场格局与发展阶段 - 海外超节点解决方案以英伟达NVL72和Google采用自研TPUv7芯片的Ironwood Rack(最大支持9216颗芯片集群)为代表 [3] - 国内近期涌现出华为CloudMatrix384、阿里磐久、曙光ScaleX640等超节点解决方案 [3] - 当前是超节点解决方案的早期发展阶段,技术方案呈现“百家争鸣”状态,未来预计将逐步收敛到有限方向 [3] 关键技术趋势 - **算力密度**:更大规模的Scale up域有望带来模型训练及推理的性能收益,但具体规模需结合成本与可靠性等因素,依赖技术发展确定 [3] - **网络拓扑**:胖树结构在通用性上或短期占据更高市场份额,而具备软硬件自研能力的大厂有望尝试3D-Torus等方案 [3] - **物理连接**:无背板正交方案在连接简洁性、机柜紧凑性方面具备优势,或将成为未来主流技术方案 [3] - **散热方案**:随着单机柜算力密度提升,PUE更接近1的液冷方案(如相变浸没液冷)若解决稳定性问题,将迎来更大发展机会 [4] 产业链价值重塑 - 传统八卡AI服务器产业链分工清晰,服务器厂商主要承担标准化零部件组装,技术门槛相对集中于单一部件 [5] - 超节点服务器的技术复杂度实现质的跃升,涉及多芯片功耗管控、高密度集成散热、整机柜级长期可靠性等系统性挑战 [5] - 服务器厂商角色从“组装者”转变为“系统整合者”,需从设计之初深度考量芯片、散热、互连等多部件耦合关系,通过跨环节技术协同解决问题 [5] - 这种系统化、一体化的设计与整合需求大幅提升了技术门槛,强化了整机环节在产业链中的话语权,使其成为把握技术方向与系统性能的核心枢纽,技术附加值有望显现 [1][5] 发展前景与投资关注 - 超节点技术方兴未艾,MoE架构料将成为大模型主流架构,其特殊性对硬件提出新要求 [7] - 超节点有望通过高效的网络通信及原生内存语义提供更优解决方案,并成为未来AI基础设施的底层计算单元 [1][7] - 算力密度提升、散热能力提升、稳定性和可靠性提升具备高确定性,相关技术为服务器整机制造带来新要求 [7] - 具备定制化开发能力及供应链管理能力的服务器厂商有望获得更大发展机会 [7]
华为CloudMatrix384超节点:官方撰文深度解读
半导体行业观察· 2025-06-18 09:26
华为CloudMatrix384超节点发布 - 华为在2025华为云生态大会上推出CloudMatrix 384超节点,面向AI时代海量算力需求,基于"一切可池化、一切皆对等、一切可组合"的新型高速互联总线设计 [1] - 该架构实现从服务器级到矩阵级的资源供给模式转变,具备"高密、高速、高效"特点,在算力、互联带宽、内存带宽等方面全面领先 [2] - 架构突破传统分层设计,通过统一总线(UB)实现全节点直接通信,支持计算、内存和网络资源动态池化与独立扩展 [3] 架构核心特性 - 集成384个昇腾910C NPU和192个鲲鹏CPU,通过UB网络实现点对点全互联,节点间带宽衰减<3%,延迟增加<1µs [10] - 提供四项基础功能:1)支持TP/EP的可扩展通信 2)灵活的异构工作负载资源组合 3)统一的融合工作负载基础架构 4)通过分解式内存池实现内存级存储 [7][8] - 包含三个网络平面:UB平面(392GB/s单向带宽)、RDMA平面(400Gbps)、VPC平面(400Gbps),分别处理纵向扩展、横向扩展和外部连接 [12][14][16] 硬件配置细节 - 昇腾910C NPU采用双芯片封装,每封装提供752 TFLOPS BF16/FP16算力,128GB封装内内存,3.2TB/s内存带宽 [17][18] - 每个计算节点集成8个NPU+4个CPU+7个UB交换芯片,节点内UB带宽达392GB/s,RDMA带宽总计3.2Tbps [22] - 超级节点横跨16个机架(12计算+4通信),采用无阻塞双层UB交换拓扑,L2交换机分为7个子平面保持全系统无阻塞 [24][26] 软件生态系统 - CANN软件栈包含驱动层、运行时层和库层,实现与PyTorch/TensorFlow/MindSpore等框架的无缝集成,功能对标NVIDIA CUDA [27][28][30][33] - 云基础设施软件包括MatrixResource(资源管理)、MatrixLink(网络服务)、MatrixCompute(生命周期协调)和MatrixContainer(Kubernetes容器服务) [35][37] - ModelArts提供端到端AI平台服务,包含Lite(裸机访问)、Standard(完整MLOps)和Studio(MaaS)三个层级 [37] 性能表现与未来方向 - 在DeepSeek-R1模型测试中实现预填充6,688 tokens/NPU/秒和解码1,943 tokens/NPU/秒的吞吐量,延迟<50ms [57] - 未来演进方向包括:1)统一VPC和RDMA平面 2)扩展超级节点规模 3)实现CPU物理分解与池化 4)推进组件级微服务架构 [41][43][48][50] - 研究表明384 NPU配置可实现94%分配率,比224 NPU配置提升3个百分点,交换机利用率达100%且单位成本不变 [44][45]
英伟达特供中国的B20/B40 spec分析
傅里叶的猫· 2025-06-14 21:11
英伟达中国市场战略调整 - 英伟达首席执行官黄仁勋表示未来预测将不包括中国市场 但中国仍是重要市场 公司正努力放大华为作为竞争威胁的形象[3] - 华为CloudMatrix384在中国市场推广困难 虽有公司表示兴趣但尚未有实质性订单[3] - 英伟达针对中国市场的新款芯片基于GB202 GPU 与RTX 6000和RTX 5090相同架构 预计最早7月上市[3] 新产品规划与技术细节 - 基于GB202芯片将推出B20和B40/B30两种型号 可能命名为RTX 6000变体以规避监管[4] - B20使用ConnectX-8实现互连 最大带宽800Gbps 适合8-16卡小规模集群 主要面向推理任务[6] - B40/B30支持NVLink互连 带宽900Gbps 采用OAM形态 可支持四卡单机配置和高密度集群[7] - 内存规格预计包括24GB/36GB/48GB三种 48GB配置可能性最大 使用GDDR7模块[8] 市场需求与定价 - 新款芯片定价6500-8000美元 远低于H20的1万-1.2万美元 B40性能约为H20的85%[9] - 完整服务器配置售价8万-10万美元 以太网连接系统8万美元 OAM NVLink配置10万美元[9] - 腾讯青睐B20因其推理任务繁重 字节跳动关注B40/B30 阿里巴巴显示强烈总体需求但未明确偏好[10][11] 行业现状与未来展望 - 主要中国客户尚未收到测试卡 评估过程通常需要一个月 之后才会下达大量订单[12] - 英伟达无法完全放弃中国市场 华为等中国竞争对手在研发方面持续进步[12]