Workflow
MoGE架构
icon
搜索文档
一张卡干俩活,华为要把算力榨干
虎嗅APP· 2025-06-05 22:24
华为MoE架构优化 - 华为提出MoGE架构,克服了传统MoE模型负载不均衡及效率瓶颈问题,实现降本增效并便于训练和部署 [1] - 中国科技企业对MoE架构进行优化重组,展现后发优势,推动大模型技术向更普适和高效的方向发展 [1] RL后训练的重要性 - RL后训练已成为突破大模型性能天花板的核心路径,OpenAI o1和DeepSeek-R1等模型均依赖该技术 [3] - RL后训练通过动态交互直接塑造大模型在复杂任务中的推理效能,当前占训练全流程20%算力,未来将升至50% [3] - 该技术在提升模型精度、泛化性和用户体验方面发挥不可替代作用 [5] RL后训练的挑战 - On-Policy算法导致训练与推理严格交替,资源利用率低下,形成"算力黑洞" [6][7] - 大规模集群中多模型异构并行策略组合使任务调度复杂度指数级增长,扩展效率显著下降 [8] 华为RL Fusion技术 - RL Fusion实现一卡同时执行训练和推理任务,资源利用率和吞吐翻倍 [9][10] - 支持训推共卡、全共卡等多种部署模式,并实现多维并行策略动态无缝切换 [10] - 针对MoE模型提出训推内存0冗余切换技术,消除EP变化造成的冗余内存 [11][12] - 优化后训推切换过程达到秒级,使集群利用率倍增并大幅降低成本 [15] 华为StaleSync技术 - StaleSync采用准异步机制,容忍梯度"陈旧性",使CloudMatrix 384超节点水平扩展效率超90% [16][17] - 该技术结合共置和分离架构优势,平衡不同RL计算任务的资源需求 [20] - 引入准异步调度机制,在保证精度前提下使系统整体训练吞吐量提升50% [23] 分布式数据队列DistQueue - DistQueue实现不同计算任务间数据的拆分、缓存与动态读取 [24] - 采用分层数据传输与零冗余通信技术,在Pangu 718B-MoE案例中将负载降低为1/128 [25] - 零冗余通信技术避免Padding带来的额外通信,实测降低80%以上通信量 [26] 实测性能表现 - RL Fusion使单个超节点吞吐提升78.5%,结合StaleSync实现35k token/s吞吐效率,整体性能提升1.5倍 [30] - 集群规模从1个扩展至4个超节点时,StaleSync吞吐从35k tokens/s提升至127k tokens/s,扩展线性度达91% [31][32] 技术影响 - 华为RL Fusion和StaleSync技术攻克算力浪费和集群扩展瓶颈,形成高效、高扩展、高通用性的集群调度方案 [33] - 该技术为百亿、千亿级大模型后训练提供强劲动力,推动下一代AI效率革命 [33]
爆改大模型训练,华为打出昇腾+鲲鹏组合拳
虎嗅APP· 2025-06-04 18:35
华为MoE架构技术突破 - 华为提出MoGE架构优化方案,克服传统MoE负载不均衡及效率瓶颈问题,实现降本增效并便于训练部署 [1] - 通过昇腾与鲲鹏算力协同,MoE训练吞吐提升20%,内存占用降低70% [3][19] - 在Pangu Ultra MoE 718B模型训练中,三大算子加速实现整体训练吞吐量提升15% [9] MoE训练效率提升技术方案 - 针对FlashAttention算子采用"瘦身术"优化,前/反向性能分别提升50%/30%,消除冗余计算并优化流水线衔接 [10][12] - 矩阵乘法算子通过"均衡术"实现Cube利用率提升10%,优化双级数据流水搬运 [13] - Vector算子采用"搬运术"性能提升3倍,减少数据反复搬运 [17] 昇腾鲲鹏协同优化 - 通过Host-Device协同实现算子下发"零等待"(free时间占比<2%),单次Host-Bound时间从2.1ms降至0.6ms [20][23][25] - Selective R/S内存优化技术节省70%激活值内存,包含细粒度重计算和Swap策略 [26][28] - 自适应内存管理机制基于Memory-Runtime性价比优化策略组合 [31] 行业影响与意义 - 华为技术方案为大规模MoE模型训练扫清障碍,提供高效低成本解决方案 [34] - 昇腾+鲲鹏深度协同展现公司在AI算力领域的技术积累,为行业提供参考路径 [34] - 中国科技企业在MoE架构优化方面展现后发优势,推动AI技术普适化发展 [1]
大模型训练,一半时间在摸鱼?
虎嗅APP· 2025-06-03 17:58
华为MoE架构优化技术 核心观点 - 华为提出MoGE架构优化方案,克服传统MoE模型负载不均衡及效率瓶颈问题,实现降本增效并便于训练部署 [1] - 公司通过Adaptive Pipe通信掩盖框架和EDPB全局负载均衡技术,显著提升MoE模型训练效率,在Pangu Ultra MoE 718B模型8K序列训练中实现72.6%的吞吐提升 [24][25] 技术方案细节 MoE训练效率挑战 - 专家并行(EP)导致计算单元空闲等待通信,模型规模较大时All-to-All通信造成50%以上训练时间浪费 [4][5] - 负载不均现象突出:热专家调用频率达冷专家数倍,不同模型层计算量差异明显 [5][6] DeployMind仿真平台 - AutoDeploy仿真平台通过三维建模和昇腾硬件映射,1小时内完成百万次训练场景模拟,并行策略选择精度达90% [9] - 针对Pangu Ultra MoE 718B模型,自动生成TP8/PP16/VPP2/EP32最优并行方案 [9] Adaptive Pipe通信优化 - 层次化All-to-All通信将跨机器传输数据块拷贝量减少50%,机内高速通道利用率提升1倍 [11] - 虚拟流水线并行技术使内存占用减半,实现98%以上EP通信掩盖率 [12][13] EDPB负载均衡 - 专家预测动态迁移技术通过多目标优化实现专家智能调度,包含预测先行/双层优化/智能触发三重机制 [18] - 数据重排和虚拟流水线层间均衡技术分别解决Attention计算和Stage间等待问题 [20][21] - 在基础优化上额外带来25.5%吞吐提升 [16][25] 行业技术演进 - MoE模型从加拿大理论雏形到硅谷工程突破,现由中国企业主导架构创新,华为MoGE架构体现"多快好省"技术路线 [1] - 昇腾生态通过系列技术披露推动开放协作,加速大模型本土化发展 [1][31]