Workflow
混合专家网络模型架构(MoE)
icon
搜索文档
MoE那么大,几段代码就能稳稳推理 | 开源
量子位· 2025-07-02 17:33
混合专家网络模型架构(MoE)技术进展 - 盘古Pro MoE采用MoGE架构构建,总参数量达720亿,激活参数量160亿,专为昇腾硬件优化,性能与效率突出[1] - 盘古模型引入"快思考"和"慢思考"双系统,在昇腾800I A2上单卡推理吞吐达1148 tokens/s,投机加速后提升至1528 tokens/s[2] - 华为开源Omni-Infer项目,提供超大规模MoE模型推理的完整架构、技术和代码支持[3] Omni-Infer项目核心能力 - 由推理框架和加速套件组成,兼容vLLM等主流开源框架且独立安装,降低维护成本[12][16][18] - 支持PD分离部署方案,针对QPM系统级优化,分享商用硬件使用方法论[4] - 提供智能调度系统、负载平衡器、MoE专属优化、动态资源分配及注意力机制强化五大功能模块[24] 技术实现与部署 - 仅支持CloudMatrix384推理卡和Linux系统,Python版本要求3.9-3.11[25] - 通过Docker镜像预集成CANN及Torch-NPU依赖包,开箱即用[21] - 部署框架示例显示支持4机2P1D分布式配置,优化预填充与解码阶段吞吐量[22][24] 开源生态建设 - 北京智源研究院FlagScale框架、上海人工智能实验室DeepLink平台及OpenI启智社区已接入合作[6][7][8] - 采用两级社区治理机制(项目管理委员会+特别兴趣小组),开放设计文档与代码规范[27] - 首场活动将参与OpenInfra基金会苏州Meetup,代码托管于GitHub/Gitee等多平台[28][29] 模型性能对比 - 盘古Pro MoE(72B-A16B)为昇腾原生分组混合专家模型,盘古Embedded(7B)支持快慢思考切换[10] - 昇腾推理集群技术分享与盘古推理系统技术形成完整解决方案[10]