Workflow
并行策略
icon
搜索文档
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
华尔街见闻· 2025-05-30 17:38
华为Pangu Ultra MoE大模型技术突破 - 华为通过"昇腾+Pan gu Ultra MoE"组合实现国产算力与国产模型全流程自主可控的训练闭环,集群训练系统性能达到行业领先水平[3] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%,后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[4] - 首次披露在昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术[4] 技术挑战与解决方案 - MoE预训练和强化学习后训练存在六大挑战:并行策略配置困难、All-to-All通信瓶颈、系统负载分布不均、算子调度开销过大、训练流程管理复杂、大规模扩展受限[7][8][10][11][12][13] - 提升训练集群利用率三招:建模仿真驱动的智能并行优化、Adaptive Pipe前反向通算掩盖、EDP Balance全局动态负载均衡[15][16][17][20][22][23] - 释放昇腾单节点算力三招:昇腾亲和的训练算子加速、Host-Device协同的算子下发优化、Selective R/S精准的内存手术方案[26][28][29][30] 强化学习后训练创新 - 首次披露RL Fusion训推共卡技术,支持训练推理共卡、全共卡等多种灵活部署模式,实现RL后训练集群利用率翻倍[33][34] - 设计准异步机制StaleSync和分布式数据队列DistQueue,系统整体训练吞吐提升50%[36] - 在Pangu Ultra MoE昇腾CloudMatrix 384超节点集群后训练中实现每超节点35K Tokens/s高吞吐能力,支持高效扩展超过4K卡集群[39] 模型性能与架构 - Pangu Ultra MoE模型拥有7180亿参数,包含61层Transformer,前3层为稠密层,后58层为MoE层[38] - 模型隐层维度达7680,配备256个路由专家和1个共享专家,专家隐层维度为2048[38] - 在序列长度为8K、万卡训练集群条件下,模型算力利用率(MFU)达到41%,预计可支撑训练集群MFU>50%[38]
大模型推理,不再是“一根筋”
虎嗅APP· 2025-05-22 19:41
大模型推理技术发展 - 主流MoE架构大模型存在硬件成本高、效率低等结构性问题,中国企业面临芯片堆砌与效率挖掘的挑战 [1] - 华为通过数学算法和工程积累为DeepSeek提升效率及用户体验,采用差异化技术路径 [1] - 大语言模型参数规模呈指数级增长,部署形态从单卡演进到多卡集群,MoE模型需数百卡集群支持 [2] 集合通信操作核心机制 - 集合通信操作(如AllReduce、All-Gather、Reduce-Scatter、All-To-All)是大模型多节点协作的关键桥梁 [2][3][4] - AllReduce用于梯度汇总与参数更新,All-Gather实现数据全局共享,Reduce-Scatter分摊计算压力 [3] - 不同并行策略(TP、DP、EP)依赖特定通信操作:TP需All-to-All交换张量片段,DP用AllReduce同步梯度,EP依赖广播传递中间结果 [4][5] 通信技术瓶颈与挑战 - MoE模型参数突破千亿级,专家数量增长导致通信带宽需求呈平方级增长,引发网络拥塞 [7] - 传统AllReduce在大并发场景下效率不足,且后续计算操作(如RMSNorm)加剧时延 [7][8] - TP并行方案中AllReduce操作占推理时延较高,跨节点带宽限制进一步劣化性能 [8] 华为FlashComm技术创新 - **多流并行技术**:拆解MoE计算流程为三股并行流(专家计算/门控决策/数据传输),实现Prefill阶段提速10%,Decode吞吐提升25-30% [12][13] - **AllReduce革新**:采用ReduceScatter+AllGather组合,结合INT8量化使通信量降35%,Prefill性能提升22-26% [15] - **维度压缩技术**:通过矩阵乘法并行维度调整,通信量减少86%,整体推理速度提升33% [17] 技术方案总结与展望 - FlashComm技术通过通信算子优化降低数据量及时延,FlashComm2优化张量并行通信,FlashComm3提升计算并行度 [21] - 未来研究方向包括EP多流并行、权重自动预取、模型自动多流并行等 [21] - 华为技术方案在DeepSeek模型部署中实现显著性能提升,对比传统方案具有竞争优势 [23]
昇腾杀手锏FlashComm,让模型推理单车道变多车道
雷峰网· 2025-05-22 19:29
大模型推理中的通信挑战与华为解决方案 核心观点 - 华为通过创新通信技术突破MoE模型推理中的三大通信难题,显著提升大模型推理效率[1][19] 大模型推理的通信基础 - 大语言模型参数规模呈指数级增长,部署形态从单卡演进至数百卡集群,MoE模型成为新趋势[2] - 集合通信操作(如AllReduce、All-Gather)是大模型多节点协作的关键,支持张量并行(TP)、数据并行(DP)、专家并行(EP)等策略[4][5] MoE模型的通信痛点 - MoE模型参数突破千亿级别,专家数量增长导致通信带宽需求呈平方级增长,引发网络拥塞[6] - 传统AllReduce在TP方案中跨节点带宽受限,端到端推理时延占比过高[7] - 计算与通信强耦合导致硬件资源利用率低下,流程串行化加剧性能瓶颈[6][11] 华为三大技术创新 1 多流并行技术 - 将MoE计算流程拆解为激活通信、门控决策等模块,通过昇腾多流引擎实现三股计算流并行[12] - 采用TP8分片与流水线技术,多卡并行时释放2GB内存,DeepSeek模型Prefill阶段提速超10%,Decode吞吐提升25%-30%[12] 2 AllReduce革新 - 将AllReduce拆解为ReduceScatter+AllGather,插入INT8动态量化技术使通信量降35%[14] - 关键计算量减少至1/8,DeepSeek Prefill性能提升22-26%,Llama3.1-70B Decode性能提升14%[14] 3 以存换传技术 - 通过矩阵乘法并行维度调整,将三维张量压缩为二维矩阵,注意力机制阶段通信量降86%[15] - 结合INT8量化使DeepSeek整体推理速度提升33%[15] 技术体系与未来方向 - FlashComm系列技术通过通信算子重构、数据维度优化和计算流程并行化实现端到端加速[19] - 未来将聚焦超大规模EP下的权重自动预取、模型自动多流并行等方向[19] 行业影响 - 华为技术已应用于DeepSeek V3/R1等超大规模MoE模型,国产芯片推理性能达国际领先水平[21] - 昇腾平台实现MoE专家动态部署优化,系统吞吐提升10%[21]
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 12:13
大模型推理通信优化技术 核心观点 - 华为推出FlashComm系列技术,通过数学重构和硬件协同优化,解决大模型推理中的通信瓶颈问题,显著提升推理性能 [2][7][10] - 集合通信操作(如AllReduce、All-Gather)是大模型多节点协作的关键桥梁,但传统方案在MoE等大规模场景下存在效率缺陷 [3][4][6] - 通信优化技术使DeepSeek模型Prefill阶段性能提升22-26%,Decode阶段提升14-30%,Llama3.1-70B模型也有显著加速 [11][14][15] 技术细节 通信挑战 - MoE模型参数突破千亿级别,专家路由与数据聚合导致通信带宽需求呈平方级增长,网络拥塞风险加剧 [6] - 传统AllReduce在多节点部署中跨节点带宽受限,端到端推理时延占比过高 [6][8] - TP并行方案中卡间权重切分虽降低单卡负载,但AllReduce操作仍造成显著时延 [6] 解决方案 **FlashComm1** - 将AllReduce拆解为ReduceScatter+AllGather两阶段,中间插入数据投影降维和INT8量化,通信量降低35%,关键计算量减少至1/8 [11] - DeepSeek模型Prefill推理性能提升22-26%,Llama3.1-70B Decode阶段提升14% [11] **FlashComm2** - 重构矩阵乘法并行维度,将三维张量压缩为二维矩阵,配合INT8量化使注意力机制通信量下降86% [14] - DeepSeek模型整体推理速度提升33% [14] **FlashComm3** - 对MoE模型五大模块(激活通信、门控决策等)进行数学重构,利用昇腾多流引擎实现三股计算流并行 [15] - 腾出2GB内存空间,DeepSeek模型Prefill提速超10%,Decode吞吐增加25-30% [15] 行业影响 - 华为昇腾构建面向大模型推理的全栈生态体系,未来将聚焦超大规模EP下的多流并行、权重自动预取等技术 [17][18] - 技术方案已应用于DeepSeek V3/R1等MoE模型,参数规模达千亿级别,推动行业解决Scaling Law下的通信瓶颈 [6][16]