混合专家(MoE)模型

搜索文档
生于昇腾,快人一步:盘古Pro MoE全链路优化推理系统揭秘
雷峰网· 2025-06-06 17:26
华为昇腾平台与Pangu Pro MoE模型优化 核心观点 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型,通过软硬协同优化实现推理性能提升6~8倍,在昇腾300I Duo和800I A2上分别达到321 tokens/s和1528 tokens/s的吞吐量 [2] - 采用分层混合并行(H2P)、通信优化(TopoComm)、计算通信融合(DuoStream)等创新技术,显著提升分布式推理效率 [4][6][8] - 开发MulAttention和SwiftGMM两大融合算子,分别实现Attention计算加速4.5倍和GMM计算加速2.1倍,解码时延降低48.7% [15][18] 技术优化细节 系统级优化 - **H2P分层混合并行**:针对Attention模块采用DP2+TP4并行,Expert模块采用TP2+EP4策略,共享专家TP8全芯并行,Decode吞吐性能比纯TP方案提升33.1% [4][5] - **TopoComm通信优化**:SlimRing算法降低同步次数35%,NHD算法提高链路有效带宽21%,混合量化通信策略压缩数据25%,AllGather耗时降低39% [6] - **DuoStream多流融合**:通过GMMRS和AGMM策略实现通信与计算流水掩盖,最大化释放硬件潜力 [10] 算子级优化 - **MulAttention算子**:优化KV缓存搬运,访存带宽利用率达87%,数据搬运流水占用率89%,Attention计算加速4.5倍 [15] - **SwiftGMM算子**:动态切换GEMV/GEMM模式,结合智能分块缓存和双缓存机制,解码阶段整网时延降低48.7% [18] 推理算法创新 - **PreMoE动态剪枝**:通过PEP和TAER技术动态加载相关专家,保持准确率同时推理吞吐提升10%+ [22] - **TrimR反思压缩**:用小模型监测大模型思考过程,异常时终止推理,步数降低14% [23] - **SpecReason投机推理**:小模型生成假设后大模型验证,推理吞吐提升30% [23] 性能表现 昇腾800I A2 - 4卡部署下,大并发场景(BS=456)单卡吞吐1148 tokens/s,较72B/32B稠密模型提升97%/18% [26] - 结合MTP投机推理,单卡BS提升至146,平均时延95.56ms,最高吞吐1528 tokens/s [26][28] 昇腾300I Duo - 预填充阶段2卡2路并发下2k序列输入延迟1.94s,单卡吞吐1055 tokens/s [29] - 解码阶段小并发延迟50ms,大并发(BS=80)单卡吞吐201 tokens/s,MTP优化后最高达321 tokens/s [29][31]
上帝视角的昇腾MoE训练智能交通系统,Adaptive Pipe&EDPB让训练效率提升70%
华尔街见闻· 2025-06-03 21:05
混合专家(MoE)模型的发展与挑战 - 混合专家(MoE)模型通过动态路由机制分配输入token给不同专家网络,高效扩展模型参数并提升复杂任务处理能力 [1] - MoE模型在分布式集群训练时面临效率不足问题,主要因计算/通信等待和负载不均导致50%以上训练时间浪费 [2] MoE训练效率的核心瓶颈 - 专家并行(EP)引入All-to-All通信依赖,导致计算单元空闲等待,串行执行模式加剧资源闲置 [2] - 负载不均表现为热专家频繁调用(如部分专家使用率过高)与冷专家闲置,同时数据长度差异和模型层计算量不均导致跨设备等待 [2] 华为的优化方案架构 - 构建AutoDeploy仿真平台,通过三维建模和昇腾硬件映射,1小时内模拟百万次训练场景,精度达90%,为Pangu Ultra MoE 718B模型匹配出TP8/PP16/VPP2/EP32最优并行方案 [4][5] - Adaptive Pipe通信掩盖框架采用层次化All-to-All(跨机器通信加速1倍)和自适应细粒度调度,实现>98%通信掩盖,内存占用减半并降低计算空泡 [6][7] - EDPB全局负载均衡通过专家动态迁移、数据重排和虚拟流水线优化,解决负载不均问题,提升训练吞吐25.5% [10][14] 关键技术实现细节 - 层次化All-to-All分两步完成:跨机器数据块聚合+机内高速交换,减少数据拷贝量 [6] - 专家动态迁移采用多目标优化,预测负载趋势并实现毫秒级响应,结合双层贪心优化架构平衡计算与通信 [12][16] - 数据重排通过线性模型量化计算耗时,贪心算法构建最小耗时序列,保持精度无损下均衡Attention计算负载 [14] 系统整体性能提升 - 在Pangu Ultra MoE 718B模型8K序列训练中,Adaptive Pipe &EDPB方案实现端到端72.6%吞吐提升,类比智慧交通系统解决通信与计算阻塞 [17] - 虚拟流水线技术分离MTP层与输出层,将Embedding计算前移,规避Stage间等待问题 [14][19]
专家一半时间在摸鱼?Adaptive Pipe & EDPB让昇腾MoE训练效率提升70%
雷峰网· 2025-06-03 15:17
MoE模型训练效率挑战 - 混合专家(MoE)模型通过动态路由机制分配token给不同专家网络,实现参数规模化扩展和复杂任务处理优势[2] - 分布式训练中存在两大效率瓶颈:1)专家并行引入计算与通信等待,导致50%以上训练时间浪费在空闲等待[3][4];2)负载不均导致热专家过载而冷专家闲置[4] - 问题类比为城市交通拥堵:1)人车混行阻塞(计算等待通信);2)车道分配僵化(静态专家分配)[4] AutoDeploy仿真平台 - 基于昇腾硬件的数字孪生平台,通过三维建模和高精度硬件映射,1小时内模拟百万次训练场景,实现90%精度的最优并行策略自动选择[8] - 针对Pangu Ultra MoE 718B模型,自动求解出TP8/PP16/VPP2/EP32并行方案,平衡计算/通信/内存[8] Adaptive Pipe通信优化 - 采用层次化All-to-All通信:分机器间数据收集和机器内高速交换两步,相比传统All-to-All加速1倍[10] - 自适应细粒度调度将流水线并行内存占用减半,实现98%以上EP通信掩盖,计算几乎不受通信等待束缚[11] EDPB负载均衡技术 - 专家预测动态迁移(E):通过多目标优化实现专家跨设备智能流动,具备预测先行/双层优化/智能触发三大特性[17] - 数据重排(D)和虚拟流水线均衡(P)分别解决Attention计算不均和混合结构层间等待问题[19] - 整体在最优并行基础上带来25.5%吞吐提升[14] 系统综合收益 - 在Pangu Ultra MoE 718B模型8K序列训练中,Adaptive Pipe单独提升37.5%,EDPB再提升25.5%,端到端总吞吐提升达72.6%[22][23] - 方案类比为智慧交通系统:通信掩盖相当于行人地下通道,动态迁移相当于智能可变车道[22]