分组混合专家模型

搜索文档
华为盘古大模型首次打榜:昇腾原生 72B MoE 模型登顶 SuperCLUE 千亿内模型榜首
第一财经· 2025-05-28 21:36
混合专家模型(MoE)技术突破 - 传统MoE架构面临专家激活频次不均衡问题,导致跨设备并行时系统效率瓶颈显著[9][14] - 华为盘古团队创新提出分组混合专家模型(MoGE),通过动态分组机制实现跨设备计算资源均衡调度,突破工程落地瓶颈[10][16] - MoGE架构将专家均匀划分为不重叠组,每组独立进行Top-K路由,确保计算负载均匀分布[17][18] 盘古Pro MoE性能表现 - 模型总参数量720亿(激活参数量160亿),在昇腾300I Duo和800I A2芯片上分别实现321 tokens/s和1528 tokens/s的推理效率[2][22] - 在SuperCLUE榜单以720亿参数量获59分综合评分,千亿参数量内模型并列国内第一,160亿激活参数量媲美更大规模模型性能[2][26] - 对比6710亿参数的DeepSeek-R1等千亿级模型,以1/10参数量实现同级别综合能力[3][29] 昇腾原生架构优势 - 采用分组均衡路由技术,专家负载分布均衡性较传统架构显著提升,各专家处理token占比均约12.5%[19][29] - 深度融合昇腾硬件加速架构并行计算特性,通过算子级编译优化实现软硬协同[10][22] - 架构仿真采用分层策略,通过粗粒度筛选到细粒度调优三阶段确定最优超参数配置[20] 行业应用价值 - 动态负载均衡技术显著降低云端推理成本,使中小企业能够驾驭大模型[31] - 构建"架构-芯片-引擎"闭环,使百亿级模型在工业质检、智能客服等场景实现高效部署[31][32] - 推动AI技术向"高效能、低成本"实用化方向发展,重构产业智能化路径[3][32] 模型能力验证 - 英语能力覆盖通用推理、阅读理解及常识推理,中文评估包含知识问答和阅读理解等[25] - 在BBH、MMLU、C-Eval等基准测试中超越同规模稠密模型(Qwen3-32B、GLM4-Z1-32B)和MoE模型(Llama4 Scout)[26][28] - 复杂推理任务表现突出,在HumanEval、MATH、GSM8K等评测中达到同规模最优[26][28]