OmniPlacement - 财报，业绩电话会，研报，新闻

OmniPlacement

搜索文档

虎嗅APP· 2025-05-20 22:00

大模型与MoE架构挑战 - 主流MoE架构大模型存在硬件成本高、效率低等"先天不足"，中国企业面临芯片堆砌与效率挖掘的挑战[1] - 华为作为智能基础设施提供商，通过数学算法和工程积累为DeepSeek提升效率及用户体验[1] MoE模型的冷热专家问题 - MoE模型通过分配token给不同专家网络实现高效扩展，但面临负载不均衡的严峻挑战[4] - 冷热专家现象表现为：热专家调用频率比冷专家高一个数量级，导致推理延迟增加、吞吐量受限[4] 华为OmniPlacement负载均衡技术 - 通过专家重排、层间冗余部署和近实时动态调度提升MoE模型推理性能[7] - 动态优先级调整：实时统计专家调用频率，优先将高频专家部署在强计算节点[7] - 通信域优化：分析批次内激活卡数，减少跨节点通信延迟[7] 层间高频专家冗余部署 - 为热专家分配冗余实例降低跨节点通信开销，提升系统吞吐量[8] - 动态资源分配：根据实时资源占用和调用频率调整冗余实例比例[9] - 层间差异化配置：高负载层分配更多冗余实例，低负载层减少冗余节省显存[9] 近实时调度与监控机制 - 毫秒级动态调整专家分配，迭代优化部署模式降低计算开销[10] - 独立计算流运行监控任务，避免干扰推理主流程[10] - 层间流水线设计实现专家权重动态调整，降低高负载场景延迟[10] OmniPlacement框架特性 - 高兼容性：支持多种MoE模型架构，无缝集成现有推理系统[12] - 低时延开销：优化数据处理和调度流程减少额外计算开销[12] - 模块化设计：数据统计、算法运行和专家调度三大模块解耦[12] 性能验证与未来方向 - 实验显示OmniPlacement使DeepSeek-V3推理延迟降低10%，吞吐量提升10%[14] - 未来研究方向包括调度算法优化、自适应专家选择和框架扩展[15] - 技术突破体现华为在芯片架构、算法和软件生态的长期积累[15]

混合专家模型（MoE）

人工智能

Artificial Intelligence

Artificial Intelligence

OmniPlacement

DeepSeek-V3

华为发布OmniPlacement技术，实现超大规模MoE专家最优动态部署，提升昇腾推理系统吞吐10%

雷峰网· 2025-05-20 21:01

混合专家模型(MoE)技术发展 - 混合专家模型通过将输入token分配给不同专家网络实现高效扩展，显著提升大语言模型处理复杂任务的能力[2] - 当前MoE模型面临核心挑战是负载不均衡问题，表现为热专家调用频率比冷专家高出一个数量级以上[2] - 负载不均导致三大问题：计算节点成为瓶颈延长推理时间、系统吞吐量受限、资源利用率不足[2][3] 华为OmniPlacement技术创新 - 提出三层技术方案：计算均衡联合优化、层间冗余部署、近实时动态调度[4] - 核心算法通过分析专家激活数据优化部署顺序，降低负载不均现象[4] - 采用层间差异化冗余策略，高负载层分配更多冗余实例，节省显存同时提升吞吐量[4][5] - 动态调度机制实现毫秒级专家分配调整，监控与推理流程分离保障系统稳定性[6][8] 开源框架技术特性 - 开发vLLM推理优化框架Omni Placement，具备模块化架构设计[7] - 框架四大优势：兼容多种MoE架构、时延开销低于1%、模块化支持快速迭代、可扩展新算法[9] - 应用昇腾算力并整合开源最佳实践，近期将全面开源回馈社区[1][10] 实验验证效果 - 在DeepSeek-V3模型测试中，相比基线方法实现10%延迟降低和10%吞吐量提升[14] - 高并发场景下通过冗余部署和动态调度有效缓解负载瓶颈[12][14] - 系统在动态输入环境下保持稳定，未出现性能波动或中断[14] 未来技术方向 - 重点开发智能调度算法提升系统自适应能力[16] - 探索基于输入特征的自适应专家选择机制[16] - 扩展框架功能支持更多类型MoE模型[16] - 在智能客服等工业场景展现应用潜力，提升用户体验和系统吞吐[15]

华为：让DeepSeek的“专家们”动起来，推理延迟降10%！

量子位· 2025-05-20 13:12

混合专家模型(MoE)技术突破 - 混合专家模型(MoE)通过将任务分配给擅长处理的专家网络提升系统性能，但负载均衡问题成为影响推理性能的关键因素 [1][2][3] - MoE模型中专家网络调用频率差异可达一个数量级以上，导致系统推理时间延长、资源利用率受限 [4][5] - 华为团队提出的OmniPlacement技术使DeepSeek-V3推理延迟降低约10%、吞吐量提升约10%，并计划全面开源该方案 [6][7][28] OmniPlacement技术原理 - 采用基于计算均衡的联合优化算法，通过动态优先级调整、通信域优化和层间差异化部署显著降低负载不均 [9][10][11][12] - 针对高频专家实施层间冗余部署策略，通过分配冗余实例降低跨节点通信开销 [14][15][17] - 设计近实时调度与动态监控机制，包含动态资源分配、层间差异化配置和预测性分配功能 [18][19][20] 技术实现框架与效果 - 开发模块化推理优化框架OmniPlacement，核心算法与推理流程分离，支持独立调度和灵活调整 [21][22][30] - 实验验证显示该技术在多节点GPU集群和高并发场景下表现稳定，运算效率和资源利用率显著提升 [24][25][26] - 框架具备高兼容性、低时延开销和可扩展性，支持多种MoE模型架构和动态算法添加 [29][30][31]

混合专家模型（MoE）

负载均衡问题

Telecommunications Equipment

Telecommunications Equipment

OmniPlacement

昇腾超大规模MoE模型推理部署技术

DeepSeek-V3