Workflow
华为又开源了个大的:超大规模MoE推理秘籍
量子位·2025-07-01 13:30

华为Omni-Infer开源项目 - 华为开源超大规模MoE模型推理框架Omni-Infer,提供架构、技术和代码全套解决方案 [2] - 项目定位为"加速套件+最佳实践",支持昇腾推理集群快速部署 [8] - 包含推理框架和推理加速套件两大核心组件,与vLLM等主流框架解耦且独立安装 [12][17] 技术特性 - 支持PD分离部署方案,针对QPM进行系统级优化,分享商用硬件使用方法论 [3] - 兼容vLLM/SGLang等主流框架,降低用户版本维护成本 [16][18] - 优化MoE模型支持,具备EP144/EP288配置能力及动态专家放置功能 [24] - 预集成CANN/Torch-NPU依赖包,通过Docker镜像开箱即用 [21] 生态合作 - 北京智源研究院FlagScale框架已接入Omni-Infer [5] - 上海人工智能实验室DeepLink计划协同拓展生态 [6] - OpenI启智社区将共建算力网开源生态 [7] - 采用两级社区治理机制(PMC+SIG),主动适配国内AI开源项目 [27] 部署方案 - 当前仅支持CloudMatrix384推理卡及Linux/Python 3.9-3.11环境 [25] - 提供4机2P1D自动化部署框架,实现任务调度与负载均衡 [22][24] - 优化注意力机制,提升LLM/MLLM/MoE模型性能与扩展性 [24] 开源进展 - 兑现技术报告承诺,开源DeepSeek V3/R1部署关键技术 [9][27] - 开放社区治理文档,参与OpenInfra基金会Meetup活动 [27][28] - 代码托管覆盖Gitee/GitHub/OpenI/GitLink多平台 [29]