混合专家(MoE)模型

搜索文档
生于昇腾,快人一步:盘古Pro MoE全链路优化推理系统揭秘
雷峰网· 2025-06-06 17:26
华为软硬协同深度融合优化,强强联合打通推理系统全链路,树立MoE推理标杆。 编辑丨李希 在通往通用人工智能(AGI)的进程中,混合专家(MoE)模型凭借动态稀疏计算优势,成为大模型推理提效的关键路径。华为团队重磅推出昇腾平台原生设 计的Pangu Pro MoE 72B模型,大幅降低计算开销,并在SuperCLUE千亿内模型并列国内第一。通过系统级软硬协同优化、高性能算子融合优化、模型原 生投机算法优化,Pangu Pro MoE推理性能提升6~8倍,在昇腾300I Duo上单卡吞吐可达321 tokens/s,实现极致性价比;在昇腾800I A2上更可飙升至 1528 tokens/s,全面释放硬件潜力,打造极致的推理体验。 技术报告地址:https://gitcode.com/ascend-tribe/ascend-inference-system/tree/main/ 01 推理效率拉满:全链路推理系统优化,释放昇腾澎湃算力 在大模型的分布式推理中,每个计算节点都像一个团队成员,信息流通、协调协作不可避免。就像一场跨部门的大项目,若每一步都开"全员大会",沟通成本 高、效率低,项目推进自然慢半拍。聪明的 ...
上帝视角的昇腾MoE训练智能交通系统,Adaptive Pipe&EDPB让训练效率提升70%
华尔街见闻· 2025-06-03 21:05
混合专家(MoE)模型的发展与挑战 - 混合专家(MoE)模型通过动态路由机制分配输入token给不同专家网络,高效扩展模型参数并提升复杂任务处理能力 [1] - MoE模型在分布式集群训练时面临效率不足问题,主要因计算/通信等待和负载不均导致50%以上训练时间浪费 [2] MoE训练效率的核心瓶颈 - 专家并行(EP)引入All-to-All通信依赖,导致计算单元空闲等待,串行执行模式加剧资源闲置 [2] - 负载不均表现为热专家频繁调用(如部分专家使用率过高)与冷专家闲置,同时数据长度差异和模型层计算量不均导致跨设备等待 [2] 华为的优化方案架构 - 构建AutoDeploy仿真平台,通过三维建模和昇腾硬件映射,1小时内模拟百万次训练场景,精度达90%,为Pangu Ultra MoE 718B模型匹配出TP8/PP16/VPP2/EP32最优并行方案 [4][5] - Adaptive Pipe通信掩盖框架采用层次化All-to-All(跨机器通信加速1倍)和自适应细粒度调度,实现>98%通信掩盖,内存占用减半并降低计算空泡 [6][7] - EDPB全局负载均衡通过专家动态迁移、数据重排和虚拟流水线优化,解决负载不均问题,提升训练吞吐25.5% [10][14] 关键技术实现细节 - 层次化All-to-All分两步完成:跨机器数据块聚合+机内高速交换,减少数据拷贝量 [6] - 专家动态迁移采用多目标优化,预测负载趋势并实现毫秒级响应,结合双层贪心优化架构平衡计算与通信 [12][16] - 数据重排通过线性模型量化计算耗时,贪心算法构建最小耗时序列,保持精度无损下均衡Attention计算负载 [14] 系统整体性能提升 - 在Pangu Ultra MoE 718B模型8K序列训练中,Adaptive Pipe &EDPB方案实现端到端72.6%吞吐提升,类比智慧交通系统解决通信与计算阻塞 [17] - 虚拟流水线技术分离MTP层与输出层,将Embedding计算前移,规避Stage间等待问题 [14][19]
专家一半时间在摸鱼?Adaptive Pipe & EDPB让昇腾MoE训练效率提升70%
雷峰网· 2025-06-03 15:17
" 一半以上训练时间都浪费在了 「 等待 」 。 " 作者丨李希 随着大模型的迅猛发展,混合专家( MoE)模型凭借其独特的架构优势,成为扩展模型能力的重要方 向。MoE通过创新性的路由机制,动态地将输入token分配给不同的专家网络,不仅高效实现了模型参数 的规模化扩展,更在处理复杂任务时展现出显著优势。然而, 将 MoE模型在分布式集群环境下进行训练 时,训练效率不足,已成为亟待解决的难题。 01 MoE大规模训练难题:一半以上的训练时间在等待? 华为构建了名为 AutoDeploy 的 仿真平台 ,它是一个 基于昇腾硬件训练系统的 "数字孪生"平台,通过 计算/通信/内存三维度的多层级建模、昇腾硬件系统的高精度映射、全局化算法加速运行等技术, 能在 1 小时 内模拟 百万次训练场景 , 实现 MoE模型多样化训练负载的快速分析 和自动找到与 集群硬件规格 匹配的最优策略选择。在训练实践验证中,该建模框架可达到 90%精度指标 ,实现低成本且高效的最优 并行选择。 针对 Pangu Ultra MoE 718B 模型,在单卡内存使用约束下,华为通过 AutoDeploy 以训练性能为目标 找到了 TP8/ ...