昇腾系列产品 - 财报，业绩电话会，研报，新闻 - Reportify

昇腾系列产品

搜索文档

华为发布OmniPlacement技术，实现超大规模MoE专家最优动态部署，提升昇腾推理系统吞吐10%

雷峰网· 2025-05-20 21:01

混合专家模型(MoE)技术发展 - 混合专家模型通过将输入token分配给不同专家网络实现高效扩展，显著提升大语言模型处理复杂任务的能力[2] - 当前MoE模型面临核心挑战是负载不均衡问题，表现为热专家调用频率比冷专家高出一个数量级以上[2] - 负载不均导致三大问题：计算节点成为瓶颈延长推理时间、系统吞吐量受限、资源利用率不足[2][3] 华为OmniPlacement技术创新 - 提出三层技术方案：计算均衡联合优化、层间冗余部署、近实时动态调度[4] - 核心算法通过分析专家激活数据优化部署顺序，降低负载不均现象[4] - 采用层间差异化冗余策略，高负载层分配更多冗余实例，节省显存同时提升吞吐量[4][5] - 动态调度机制实现毫秒级专家分配调整，监控与推理流程分离保障系统稳定性[6][8] 开源框架技术特性 - 开发vLLM推理优化框架Omni Placement，具备模块化架构设计[7] - 框架四大优势：兼容多种MoE架构、时延开销低于1%、模块化支持快速迭代、可扩展新算法[9] - 应用昇腾算力并整合开源最佳实践，近期将全面开源回馈社区[1][10] 实验验证效果 - 在DeepSeek-V3模型测试中，相比基线方法实现10%延迟降低和10%吞吐量提升[14] - 高并发场景下通过冗余部署和动态调度有效缓解负载瓶颈[12][14] - 系统在动态输入环境下保持稳定，未出现性能波动或中断[14] 未来技术方向 - 重点开发智能调度算法提升系统自适应能力[16] - 探索基于输入特征的自适应专家选择机制[16] - 扩展框架功能支持更多类型MoE模型[16] - 在智能客服等工业场景展现应用潜力，提升用户体验和系统吞吐[15]

混合专家模型（MoE）

昇腾系列产品

混合专家模型（MoE）

昇腾系列产品