昇腾生态 - 财报，业绩电话会，研报，新闻

昇腾生态

搜索文档

虎嗅APP· 2025-06-03 17:58

华为MoE架构优化技术核心观点 - 华为提出MoGE架构优化方案，克服传统MoE模型负载不均衡及效率瓶颈问题，实现降本增效并便于训练部署 [1] - 公司通过Adaptive Pipe通信掩盖框架和EDPB全局负载均衡技术，显著提升MoE模型训练效率，在Pangu Ultra MoE 718B模型8K序列训练中实现72.6%的吞吐提升 [24][25] 技术方案细节 MoE训练效率挑战 - 专家并行(EP)导致计算单元空闲等待通信，模型规模较大时All-to-All通信造成50%以上训练时间浪费 [4][5] - 负载不均现象突出：热专家调用频率达冷专家数倍，不同模型层计算量差异明显 [5][6] DeployMind仿真平台 - AutoDeploy仿真平台通过三维建模和昇腾硬件映射，1小时内完成百万次训练场景模拟，并行策略选择精度达90% [9] - 针对Pangu Ultra MoE 718B模型，自动生成TP8/PP16/VPP2/EP32最优并行方案 [9] Adaptive Pipe通信优化 - 层次化All-to-All通信将跨机器传输数据块拷贝量减少50%，机内高速通道利用率提升1倍 [11] - 虚拟流水线并行技术使内存占用减半，实现98%以上EP通信掩盖率 [12][13] EDPB负载均衡 - 专家预测动态迁移技术通过多目标优化实现专家智能调度，包含预测先行/双层优化/智能触发三重机制 [18] - 数据重排和虚拟流水线层间均衡技术分别解决Attention计算和Stage间等待问题 [20][21] - 在基础优化上额外带来25.5%吞吐提升 [16][25] 行业技术演进 - MoE模型从加拿大理论雏形到硅谷工程突破，现由中国企业主导架构创新，华为MoGE架构体现"多快好省"技术路线 [1] - 昇腾生态通过系列技术披露推动开放协作，加速大模型本土化发展 [1][31]

虎嗅APP· 2025-05-22 19:41

大模型推理技术发展 - 主流MoE架构大模型存在硬件成本高、效率低等结构性问题，中国企业面临芯片堆砌与效率挖掘的挑战 [1] - 华为通过数学算法和工程积累为DeepSeek提升效率及用户体验，采用差异化技术路径 [1] - 大语言模型参数规模呈指数级增长，部署形态从单卡演进到多卡集群，MoE模型需数百卡集群支持 [2] 集合通信操作核心机制 - 集合通信操作（如AllReduce、All-Gather、Reduce-Scatter、All-To-All）是大模型多节点协作的关键桥梁 [2][3][4] - AllReduce用于梯度汇总与参数更新，All-Gather实现数据全局共享，Reduce-Scatter分摊计算压力 [3] - 不同并行策略（TP、DP、EP）依赖特定通信操作：TP需All-to-All交换张量片段，DP用AllReduce同步梯度，EP依赖广播传递中间结果 [4][5] 通信技术瓶颈与挑战 - MoE模型参数突破千亿级，专家数量增长导致通信带宽需求呈平方级增长，引发网络拥塞 [7] - 传统AllReduce在大并发场景下效率不足，且后续计算操作（如RMSNorm）加剧时延 [7][8] - TP并行方案中AllReduce操作占推理时延较高，跨节点带宽限制进一步劣化性能 [8] 华为FlashComm技术创新 - **多流并行技术**：拆解MoE计算流程为三股并行流（专家计算/门控决策/数据传输），实现Prefill阶段提速10%，Decode吞吐提升25-30% [12][13] - **AllReduce革新**：采用ReduceScatter+AllGather组合，结合INT8量化使通信量降35%，Prefill性能提升22-26% [15] - **维度压缩技术**：通过矩阵乘法并行维度调整，通信量减少86%，整体推理速度提升33% [17] 技术方案总结与展望 - FlashComm技术通过通信算子优化降低数据量及时延，FlashComm2优化张量并行通信，FlashComm3提升计算并行度 [21] - 未来研究方向包括EP多流并行、权重自动预取、模型自动多流并行等 [21] - 华为技术方案在DeepSeek模型部署中实现显著性能提升，对比传统方案具有竞争优势 [23]