Workflow
MOE 架构
icon
搜索文档
从 DeepSeek 部署看,华为如何让 MOE 架构“迎来”海量“专家”?
AI前线· 2025-05-22 12:30
模型开发趋势 - 模型开发从算法层优化转向系统工程层面的深度创新 [1] - 行业从数字化时代的比特流量转向Token经济体系,国内Token日消耗量从千亿级跃升至十万亿级 [1] - 头部平台如DeepSeek日均处理6000亿Token,验证高吞吐、低时延系统的商业价值 [1] - 模型结构从单一架构探索发展为多模态融合创新,分布式集群部署成为新常态 [1] - ChatGPT和DeepSeek用户规模突破亿级的时间从1个月压缩至7天,系统处理能力实现数量级提升 [1] 华为对DeepSeek的优化 - 华为针对DeepSeek的优化包括预训练、算子层面、计算与通信优化、内存优化等方面 [3][6][7][10] - 预训练方面,华为复现并改进DualPipe技术,最终提出DualPipe-V方案,优化显存使用并集成至MindSeed [6] - 算子层面实现MRN的PO融合算子,提升执行效率 [7] - 计算与通信优化包括低时延通信优化和双链路通信掩盖 [7] - 内存优化方面,华为自研重计算技术,节省多个GB显存,适用于计算量小但激活值大的操作 [10] 推理优化与系统架构 - 华为提出PD(Prompt Decoder)分离部署,降低首token延迟并提升整体推理效率 [12] - 针对MOE架构,华为研发"超节点"架构,通过高速总线将上百张GPU卡互联,显著减少通信时延 [14] - 超节点架构采用统一内存编辑和语义通信,实现TB级带宽超高速互联 [14] - Atlas 900 A3 SuperCluster突破Scale up物理节点计算瓶颈,训练效率提升2.7倍 [15] - 在A3超节点集群上完成DeepSeek V3训练优化,达到每卡1,216 TPS吞吐率,MFU达44.57% [15] MOE架构与负载均衡 - MOE架构专家数量不断增加,DeepSeek V3/R1已有288个专家 [13] - 华为引入动态专家并行策略,取代传统张量并行,规避显存和计算浪费 [17] - 通过静态、分段及动态均衡负载算法,解决专家并行带来的负载均衡问题 [17] - 华为发布OmniPlacement算法,识别热/冷专家,优化计算均衡,理论上降低10%推理延迟并提升10%吞吐量 [19]