华为盘古大模型开源 - 公司首次开源盘古大模型核心能力,包括70亿参数稠密模型和720亿参数混合专家模型(盘古Pro MoE),同时开放基于昇腾的模型推理技术 [1] - 盘古Pro MoE在昇腾800I A2上实现单卡1148 tokens/s推理吞吐,通过投机加速技术可提升至1528 tokens/s,优于同等规模稠密模型 [3][11] - 开源组件包括盘古Pro MoE 72B模型权重、基础推理代码及昇腾超大规模MoE推理代码,盘古7B相关资源将于近期上线 [4] 模型架构与技术特性 - 盘古Pro MoE基于MoGE架构构建,总参数量720亿,激活参数量160亿,针对昇腾硬件优化,在昇腾300I Duo服务器上提供高性价比推理方案 [4][11] - 引入"快思考"和"慢思考"双系统,简单问题快速响应,复杂问题深度推理,专家选择采用分组机制实现跨设备负载均衡 [9] - 预训练使用4000个昇腾NPU处理13万亿tokens语料,后训练通过SFT和RL增强推理能力,采用检查点合并优化模型 [11] 性能表现与基准测试 - 在千亿参数内模型中处于领先地位,MMLU-PRO英文基准显著超越Qwen3-32B、GLM-Z1-32B等主流稠密模型及Llama4-Scout MoE模型 [12] - 中文领域C-Eval(EM)得分91.1超越Qwen3-32B(89.2),CLUEWSC(EM)94.7微幅领先Qwen3-32B(94.6) [14][15] - 代码生成MBPP+(Pass@1)达80.2接近Qwen3-32B(82.0),数学推理MATH-500得分96.8超越Qwen3-32B(96.6) [15] 行业影响与生态整合 - 公司形成昇腾NPU芯片、MindSpore框架、盘古模型的垂直整合体系,被媒体评价为"工业奇迹",提供英伟达之外的替代方案 [18] - 国产大模型开源浪潮加速,MiniMax、阿里巴巴等厂商推动模型价格下降60%-80%,华为开源有望进一步促进行业应用普及 [20] - SuperCLUE测评显示盘古72B在开源榜排名第五(58.75分),超越Qwen3-14B/8B,仅次于DeepSeek和Qwen3-32B/235B [17]
华为首个开源大模型来了!Pro MoE 720亿参数,4000颗昇腾训练
华尔街见闻·2025-06-30 15:27