混合专家模型技术革新 - 华为盘古团队提出分组混合专家模型(MoGE),通过分组机制解决传统MoE专家激活频次不均衡问题,在4K昇腾集群实现高效训练 [2] - MoGE架构下盘古Pro MoE模型(72B总参数/16B激活参数)在昇腾300I Duo和800I A2硬件上分别实现321 tokens/s和1528 tokens/s的推理速度 [2] - 分组均衡路由技术强制每个token在预定义专家组内激活等量专家,确保跨设备负载均衡,组间负载差异为0 [12][21] 模型性能表现 - 盘古Pro MoE以72B总参数量在SuperCLUE榜单获59分,千亿参数以内模型并列国内第一,16B激活参数媲美更大规模模型 [3] - 在MMLU-Pro(63.5 EM)、C-Eval(90.6 EM)、HumanEval(63.7 Pass@1)等基准测试中超越同规模稠密模型和MoE模型 [27] - 对比DeepSeek-V2的专家负载集中现象(最高30% token量),盘古Pro MoE实现各专家12.5% token处理的均匀分布 [29] 昇腾硬件协同优化 - 采用分层仿真策略优化昇腾300I Duo/800I A2平台的算子级编译,通过TFLOPS、内存带宽等硬件参数关联搜索最优并行策略 [19][22] - 结合MTP解码和多token优化,昇腾300I Duo单卡吞吐从201 tokens/s提升至321 tokens/s,800I A2平台高并发下达1528 tokens/s [24] - 深度融合昇腾硬件加速架构的并行特性,实现从算法设计到系统落地的全栈创新 [6] 行业应用价值 - 动态负载均衡技术有效降低云端推理成本,支持高并发实时场景,轻量化引擎适配昇腾芯片赋能百亿级模型部署 [31] - 推动大模型从参数竞赛转向实效主义,为企业级应用提供高效普惠的智能底座 [30] - 在代码生成、数学推理等复杂任务中展现同规模最优性能,为AI工业化部署提供新范式 [7][28]
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
机器之心·2025-05-28 16:09