Workflow
华为CloudMatrix 384与英伟达NVL72对比

核心观点 - 华为推出CloudMatrix 384机架系统,搭载昇腾P910C NPU,性能超越Nvidia H20,成为中国市场强劲替代品 [3][6][7] - 华为通过大规模集群设计(384个NPU)实现系统级性能优势,但牺牲了计算密度和能效 [9][11][15] - 在推理性能方面,华为系统展现竞争力,部分指标优于Nvidia H800 [13][14] - 中国市场的特殊性使华为获得竞争优势,但产能和成本仍是挑战 [16][17] 产品性能对比 芯片级对比 - 昇腾P910C FP16性能达752 teraFLOPS,是Nvidia H20的两倍多 [6] - P910C内存容量128GB,高于H20的96GB,但内存带宽3.2TB/s略低于H20 [6][4] - 相比Nvidia Blackwell GB200,P910C密集FP16性能约为其60% [3] 系统级对比 - CloudMatrix 384包含384个NPU,是Nvidia NVL72系统(72个GPU)的5倍多 [3][11] - 华为系统FP16性能达7.5倍,内存带宽5.6倍,内存容量3.4倍于NVL72 [11] - 华为系统占地面积是NVL72的16倍,功率约600kW vs NVL72的120kW [15] 技术架构 - P910C采用双计算芯片设计,通过540GB/s互连连接 [4] - 统一总线(UB)技术支持最多165,000个NPU的集群扩展 [9][11] - CloudMatrix-Infer平台实现高吞吐量推理,DeepSeek R1测试达6,688输入token/s [13][14] 市场与成本 - CloudMatrix 384售价约820万美元,Nvidia NVL72约350万美元 [16] - 中芯国际的制造能力是华为产能关键瓶颈 [16] - Nvidia已追加30万片H20订单满足中国需求 [17]