华为CloudMatrix384超节点：官方撰文深度解读

华为CloudMatrix384超节点发布 - 华为在2025华为云生态大会上推出CloudMatrix 384超节点，面向AI时代海量算力需求，基于"一切可池化、一切皆对等、一切可组合"的新型高速互联总线设计 [1] - 该架构实现从服务器级到矩阵级的资源供给模式转变，具备"高密、高速、高效"特点，在算力、互联带宽、内存带宽等方面全面领先 [2] - 架构突破传统分层设计，通过统一总线(UB)实现全节点直接通信，支持计算、内存和网络资源动态池化与独立扩展 [3] 架构核心特性 - 集成384个昇腾910C NPU和192个鲲鹏CPU，通过UB网络实现点对点全互联，节点间带宽衰减<3%，延迟增加<1µs [10] - 提供四项基础功能：1)支持TP/EP的可扩展通信 2)灵活的异构工作负载资源组合 3)统一的融合工作负载基础架构 4)通过分解式内存池实现内存级存储 [7][8] - 包含三个网络平面：UB平面(392GB/s单向带宽)、RDMA平面(400Gbps)、VPC平面(400Gbps)，分别处理纵向扩展、横向扩展和外部连接 [12][14][16] 硬件配置细节 - 昇腾910C NPU采用双芯片封装，每封装提供752 TFLOPS BF16/FP16算力，128GB封装内内存，3.2TB/s内存带宽 [17][18] - 每个计算节点集成8个NPU+4个CPU+7个UB交换芯片，节点内UB带宽达392GB/s，RDMA带宽总计3.2Tbps [22] - 超级节点横跨16个机架(12计算+4通信)，采用无阻塞双层UB交换拓扑，L2交换机分为7个子平面保持全系统无阻塞 [24][26] 软件生态系统 - CANN软件栈包含驱动层、运行时层和库层，实现与PyTorch/TensorFlow/MindSpore等框架的无缝集成，功能对标NVIDIA CUDA [27][28][30][33] - 云基础设施软件包括MatrixResource(资源管理)、MatrixLink(网络服务)、MatrixCompute(生命周期协调)和MatrixContainer(Kubernetes容器服务) [35][37] - ModelArts提供端到端AI平台服务，包含Lite(裸机访问)、Standard(完整MLOps)和Studio(MaaS)三个层级 [37] 性能表现与未来方向 - 在DeepSeek-R1模型测试中实现预填充6,688 tokens/NPU/秒和解码1,943 tokens/NPU/秒的吞吐量，延迟<50ms [57] - 未来演进方向包括：1)统一VPC和RDMA平面 2)扩展超级节点规模 3)实现CPU物理分解与池化 4)推进组件级微服务架构 [41][43][48][50] - 研究表明384 NPU配置可实现94%分配率，比224 NPU配置提升3个百分点，交换机利用率达100%且单位成本不变 [44][45]