DeepSeek V3/R1模型

搜索文档
大模型推理,不再是“一根筋”
虎嗅APP· 2025-05-22 19:41
大模型推理技术发展 - 主流MoE架构大模型存在硬件成本高、效率低等结构性问题,中国企业面临芯片堆砌与效率挖掘的挑战 [1] - 华为通过数学算法和工程积累为DeepSeek提升效率及用户体验,采用差异化技术路径 [1] - 大语言模型参数规模呈指数级增长,部署形态从单卡演进到多卡集群,MoE模型需数百卡集群支持 [2] 集合通信操作核心机制 - 集合通信操作(如AllReduce、All-Gather、Reduce-Scatter、All-To-All)是大模型多节点协作的关键桥梁 [2][3][4] - AllReduce用于梯度汇总与参数更新,All-Gather实现数据全局共享,Reduce-Scatter分摊计算压力 [3] - 不同并行策略(TP、DP、EP)依赖特定通信操作:TP需All-to-All交换张量片段,DP用AllReduce同步梯度,EP依赖广播传递中间结果 [4][5] 通信技术瓶颈与挑战 - MoE模型参数突破千亿级,专家数量增长导致通信带宽需求呈平方级增长,引发网络拥塞 [7] - 传统AllReduce在大并发场景下效率不足,且后续计算操作(如RMSNorm)加剧时延 [7][8] - TP并行方案中AllReduce操作占推理时延较高,跨节点带宽限制进一步劣化性能 [8] 华为FlashComm技术创新 - **多流并行技术**:拆解MoE计算流程为三股并行流(专家计算/门控决策/数据传输),实现Prefill阶段提速10%,Decode吞吐提升25-30% [12][13] - **AllReduce革新**:采用ReduceScatter+AllGather组合,结合INT8量化使通信量降35%,Prefill性能提升22-26% [15] - **维度压缩技术**:通过矩阵乘法并行维度调整,通信量减少86%,整体推理速度提升33% [17] 技术方案总结与展望 - FlashComm技术通过通信算子优化降低数据量及时延,FlashComm2优化张量并行通信,FlashComm3提升计算并行度 [21] - 未来研究方向包括EP多流并行、权重自动预取、模型自动多流并行等 [21] - 华为技术方案在DeepSeek模型部署中实现显著性能提升,对比传统方案具有竞争优势 [23]