集合通信操作 - 财报，业绩电话会，研报，新闻 -

集合通信操作

搜索文档

虎嗅APP· 2025-05-22 19:41

大模型推理技术发展 - 主流MoE架构大模型存在硬件成本高、效率低等结构性问题，中国企业面临芯片堆砌与效率挖掘的挑战 [1] - 华为通过数学算法和工程积累为DeepSeek提升效率及用户体验，采用差异化技术路径 [1] - 大语言模型参数规模呈指数级增长，部署形态从单卡演进到多卡集群，MoE模型需数百卡集群支持 [2] 集合通信操作核心机制 - 集合通信操作（如AllReduce、All-Gather、Reduce-Scatter、All-To-All）是大模型多节点协作的关键桥梁 [2][3][4] - AllReduce用于梯度汇总与参数更新，All-Gather实现数据全局共享，Reduce-Scatter分摊计算压力 [3] - 不同并行策略（TP、DP、EP）依赖特定通信操作：TP需All-to-All交换张量片段，DP用AllReduce同步梯度，EP依赖广播传递中间结果 [4][5] 通信技术瓶颈与挑战 - MoE模型参数突破千亿级，专家数量增长导致通信带宽需求呈平方级增长，引发网络拥塞 [7] - 传统AllReduce在大并发场景下效率不足，且后续计算操作（如RMSNorm）加剧时延 [7][8] - TP并行方案中AllReduce操作占推理时延较高，跨节点带宽限制进一步劣化性能 [8] 华为FlashComm技术创新 - **多流并行技术**：拆解MoE计算流程为三股并行流（专家计算/门控决策/数据传输），实现Prefill阶段提速10%，Decode吞吐提升25-30% [12][13] - **AllReduce革新**：采用ReduceScatter+AllGather组合，结合INT8量化使通信量降35%，Prefill性能提升22-26% [15] - **维度压缩技术**：通过矩阵乘法并行维度调整，通信量减少86%，整体推理速度提升33% [17] 技术方案总结与展望 - FlashComm技术通过通信算子优化降低数据量及时延，FlashComm2优化张量并行通信，FlashComm3提升计算并行度 [21] - 未来研究方向包括EP多流并行、权重自动预取、模型自动多流并行等 [21] - 华为技术方案在DeepSeek模型部署中实现显著性能提升，对比传统方案具有竞争优势 [23]

昇腾杀手锏FlashComm，让模型推理单车道变多车道

雷峰网· 2025-05-22 19:29

大模型推理中的通信挑战与华为解决方案核心观点 - 华为通过创新通信技术突破MoE模型推理中的三大通信难题，显著提升大模型推理效率[1][19] 大模型推理的通信基础 - 大语言模型参数规模呈指数级增长，部署形态从单卡演进至数百卡集群，MoE模型成为新趋势[2] - 集合通信操作（如AllReduce、All-Gather）是大模型多节点协作的关键，支持张量并行(TP)、数据并行(DP)、专家并行(EP)等策略[4][5] MoE模型的通信痛点 - MoE模型参数突破千亿级别，专家数量增长导致通信带宽需求呈平方级增长，引发网络拥塞[6] - 传统AllReduce在TP方案中跨节点带宽受限，端到端推理时延占比过高[7] - 计算与通信强耦合导致硬件资源利用率低下，流程串行化加剧性能瓶颈[6][11] 华为三大技术创新 1 多流并行技术 - 将MoE计算流程拆解为激活通信、门控决策等模块，通过昇腾多流引擎实现三股计算流并行[12] - 采用TP8分片与流水线技术，多卡并行时释放2GB内存，DeepSeek模型Prefill阶段提速超10%，Decode吞吐提升25%-30%[12] 2 AllReduce革新 - 将AllReduce拆解为ReduceScatter+AllGather，插入INT8动态量化技术使通信量降35%[14] - 关键计算量减少至1/8，DeepSeek Prefill性能提升22-26%，Llama3.1-70B Decode性能提升14%[14] 3 以存换传技术 - 通过矩阵乘法并行维度调整，将三维张量压缩为二维矩阵，注意力机制阶段通信量降86%[15] - 结合INT8量化使DeepSeek整体推理速度提升33%[15] 技术体系与未来方向 - FlashComm系列技术通过通信算子重构、数据维度优化和计算流程并行化实现端到端加速[19] - 未来将聚焦超大规模EP下的权重自动预取、模型自动多流并行等方向[19] 行业影响 - 华为技术已应用于DeepSeek V3/R1等超大规模MoE模型，国产芯片推理性能达国际领先水平[21] - 昇腾平台实现MoE专家动态部署优化，系统吞吐提升10%[21]

Telecommunications Equipment

Telecommunications Equipment

昇腾

帮大模型提速80%，华为拿出昇腾推理杀手锏FlashComm，三招搞定通算瓶颈

机器之心· 2025-05-22 18:25

大模型推理通信优化技术核心观点 - 华为团队推出FlashComm系列技术，通过数学方法重构集合通信操作，解决大模型推理中的通信瓶颈问题，显著提升性能[10][17] - 三项关键技术分别针对AllReduce优化、计算通信平衡和多流并行，在DeepSeek等模型上实现22%-33%的性能提升[7][11][14][15] - MoE架构的扩展使通信复杂度呈平方级增长，传统方案如AllReduce在多节点部署中面临带宽限制和时延问题[6][8] 技术细节集合通信基础 - 全量规约(AllReduce)用于梯度汇总，全量收集(All-Gather)实现数据聚合，规约散射(Reduce-Scatter)分摊计算压力[3] - 张量并行(TP)依赖All-to-All交换张量片段，数据并行(DP)需AllReduce同步梯度，专家并行(EP)需广播传递中间结果[4] 通信挑战 - MoE模型参数突破千亿级，专家路由与数据分发导致通信带宽需求呈平方级增长[6] - TP方案中AllReduce操作占端到端推理时延的30%以上，跨节点带宽限制加剧时延[6][8] 解决方案 - **FlashComm1**：拆解AllReduce为ReduceScatter+AllGather，插入INT8量化使通信量降35%，计算量减至1/8，DeepSeek模型Prefill性能提升26%[7][11] - **FlashComm2**：重构矩阵乘法并行维度，通信量降86%，整体推理速度提升33%[7][14] - **FlashComm3**：实现MoE五大模块三流并行，Decode吞吐提升30%，多卡并行释放2GB内存[15] 行业影响 - 昇腾硬件通过多流引擎支持计算通信重叠，构建大模型推理全栈生态[17][18] - 未来方向包括权重自动预取、模型自动多流并行等，持续优化超大规模EP架构[17]

大模型推理

集合通信操作

Telecommunications Equipment

Telecommunications Equipment

FlashComm

昇腾

帮大模型提速80%，华为拿出昇腾推理杀手锏FlashComm，三招搞定通算瓶颈

机器之心· 2025-05-22 12:13

大模型推理通信优化技术核心观点 - 华为推出FlashComm系列技术，通过数学重构和硬件协同优化，解决大模型推理中的通信瓶颈问题，显著提升推理性能 [2][7][10] - 集合通信操作（如AllReduce、All-Gather）是大模型多节点协作的关键桥梁，但传统方案在MoE等大规模场景下存在效率缺陷 [3][4][6] - 通信优化技术使DeepSeek模型Prefill阶段性能提升22-26%，Decode阶段提升14-30%，Llama3.1-70B模型也有显著加速 [11][14][15] 技术细节通信挑战 - MoE模型参数突破千亿级别，专家路由与数据聚合导致通信带宽需求呈平方级增长，网络拥塞风险加剧 [6] - 传统AllReduce在多节点部署中跨节点带宽受限，端到端推理时延占比过高 [6][8] - TP并行方案中卡间权重切分虽降低单卡负载，但AllReduce操作仍造成显著时延 [6] 解决方案 **FlashComm1** - 将AllReduce拆解为ReduceScatter+AllGather两阶段，中间插入数据投影降维和INT8量化，通信量降低35%，关键计算量减少至1/8 [11] - DeepSeek模型Prefill推理性能提升22-26%，Llama3.1-70B Decode阶段提升14% [11] **FlashComm2** - 重构矩阵乘法并行维度，将三维张量压缩为二维矩阵，配合INT8量化使注意力机制通信量下降86% [14] - DeepSeek模型整体推理速度提升33% [14] **FlashComm3** - 对MoE模型五大模块（激活通信、门控决策等）进行数学重构，利用昇腾多流引擎实现三股计算流并行 [15] - 腾出2GB内存空间，DeepSeek模型Prefill提速超10%，Decode吞吐增加25-30% [15] 行业影响 - 华为昇腾构建面向大模型推理的全栈生态体系，未来将聚焦超大规模EP下的多流并行、权重自动预取等技术 [17][18] - 技术方案已应用于DeepSeek V3/R1等MoE模型，参数规模达千亿级别，推动行业解决Scaling Law下的通信瓶颈 [6][16]

大模型推理

集合通信操作

并行策略

Telecommunications Equipment

Telecommunications Equipment

FlashComm