Workflow
华为云CloudMatrix384超节点
icon
搜索文档
华为CloudMatrix384超节点很强,但它的「灵魂」在云上
机器之心· 2025-07-02 19:02
AI行业发展趋势 - AI行业进入下半场,评估比训练更重要,硬件层级进入新世代[1] - 行业竞争焦点从芯片算力转向系统架构,通信开销成为AI数据中心最大瓶颈[2][3][4] - 行业面临效率危机,算力利用率因通信问题从85%骤降至52%甚至30%[46][47] 华为CloudMatrix384架构创新 - 采用384个昇腾NPU和192个鲲鹏CPU,配备LLM serving解决方案CloudMatrix-Infer[5][11] - 基于全对等高带宽互联和细粒度资源解耦设计,实现"一切可池化、一切皆对等、一切可组合"[8] - 引入统一总线(UB)技术,处理器间通信带宽提升32倍,小包传输时延降低100倍[13][15][59] - 支持EP320专家并行度,每个NPU承载DeepSeek-R1一个专家,减少串行执行延迟[33] CloudMatrix-Infer技术突破 - 采用对等式推理架构,分解为预填充、解码和缓存三个独立子系统[23][26] - 开发分离式内存池技术,实现请求调度与数据本地性解耦,缓存效率提升[27] - 实现INT8量化方案,在16个基准测试中保持与FP32相当的准确度[75][76] - 预填充阶段达6,688 tokens/s/NPU,解码阶段维持1,943 tokens/s/NPU且TPOT<50ms[65][66] 云服务优势 - 单台设备价格约800万美元,云服务降低使用门槛实现按需付费[44][45] - 通过"朝推夜训"模式使算力利用率提升40%-100%,故障恢复时间缩短50%[47][48][53] - MatrixCompute技术实现资源柔性计算,单任务资源利用率提升40%-100%[48] - 提供持续技术更新,如Memlink-direct技术降低首个token时延80%[56] 性能验证 - 部署671B参数DeepSeek-R1模型,预填充效率达4.45 tokens/s/TFLOPS,优于NVIDIA H100的3.75[65][69] - 解码效率1.29 tokens/s/TFLOPS,TPOT控制在50ms以内,优于H800的1.17[66][70] - 支持15ms极低延迟场景,吞吐量达538 tokens/s[73] - 万卡故障10分钟恢复,千亿模型线性度优化达95%+[52] 行业前瞻 - 代表下一代AI数据中心形态,定义计算/通信/存储三位一体的系统级融合[80] - 未来将扩展更大超节点,实现CPU资源池化,改进推理系统[81] - 针对MoE模型优化,验证架构前瞻性,适应百模千态发展趋势[38][40][81]