华为昇腾NPU技术突破 - 华为基于昇腾国产算力平台成功训练7180亿参数MoE模型,突破万亿参数大模型训练瓶颈 [4][5] - 采用6000+块昇腾NPU集群实现长期稳定训练,算力利用率(MFU)达30%,较优化前提升58.7% [4][33] - 攻克负载均衡难、通信开销大、训练效率低等四大技术挑战 [8][9][10] 模型架构优化 - 采用细粒度专家加共享专家范式,通过hidden size调整提升算力利用率13% [12][13] - 设计TP8×EP4超融合并行方案,运用TP-extend-EP技术避免算子效率下降 [14] - 张量256对齐处理完美匹配16×16矩阵计算单元,释放NPU算力 [15] - 参数搜索空间从庞大范围缩小至10000个左右,建模仿真工具准确率达85% [17] 训练效率提升 - 创新EP组负载均衡损失算法,在20B先导模型验证效果 [24][26] - 采用dropless方案优化并行策略,空泡率从18.98%降至10.49% [33][39] - 实现16路流水线并行、8路张量并行、4路专家并行、2路虚拟流水线并行及48路数据并行 [35] - 专家组总数32组划分256个专家,任务分配不均衡控制在5%以内 [38][39] 通信与显存优化 - 分级EP通信技术减少跨机通信量,Allgather同步结合机内AlltoAll重分配 [42][43][44] - 自适应前反向掩盖策略实现机内外通信互相掩盖,缓解host bound问题 [46][48] - 细粒度模块重计算结合Tensor Swapping技术优化显存使用 [51] - 动态负载均衡机制通过贪心算法预测调整专家分配,MFU提升10% [53][54] 性能表现 - 在CLUEWSC(94.8分)、MMLU(91.5分)、AIME2024(81.3分)等基准测试表现优异 [61] - 与DeepSeek-R1等MoE模型相比,在数学推理(MATH500 97.4分)等任务展现竞争力 [62] - 专家差异化显著,共激活现象少,冗余度低,增强模型表达能力 [65][66][72] - 路由专家与共享专家贡献均衡,协同提升模型表征能力 [68][70] 行业影响 - 标志国产算力平台进入AI大模型训练世界领先行列 [73] - 展示中国科技自主创新能力,实现从跟跑到并跑甚至领跑的跨越 [74] - 为千行百业智能化转型提供技术支撑,助力占据科技革命制高点 [74]
Bye,英伟达!华为NPU,跑出了准万亿参数大模型
量子位·2025-05-08 12:04