Workflow
盘古Pro MoE大模型
icon
搜索文档
华为盘古团队声明:严格遵循开源要求
观察者网· 2025-07-05 17:32
华为盘古Pro MoE大模型争议 - 公司近期发布盘古Pro MoE大模型 采用动态激活专家网络设计 实现以小打大的优异性能 [1] - 开源社区研究指出盘古Pro MoE与阿里巴巴通义千问Qwen-2 5 14B模型参数结构存在"惊人一致" [1] - 公司回应强调盘古Pro MoE是基于昇腾硬件平台开发的基础大模型 并非基于其他厂商模型增量训练 [1][2] - 公司声明该模型是全球首个面向昇腾硬件平台设计的同规格混合专家模型 [1][2] 技术创新与架构设计 - 模型创新性提出分组混合专家模型(MoGE)架构 解决大规模分布式训练的负载均衡难题 [1][2] - 该架构显著提升训练效率 具体技术特性可参考昇腾生态竞争力系列技术报告 [2] - 模型部分基础组件代码实现参考业界开源实践 但严格遵循开源许可证要求 [1][2] 开源社区与知识产权 - 公司在开源代码文件中清晰标注第三方开源代码的版权声明 [1][2] - 强调该做法符合开源社区通行惯例和协作精神 [1][2] - 公司表示始终坚持开放创新 尊重第三方知识产权 [1][2] - 提倡包容 公平 开放 团结和可持续的开源理念 [1][2] 开发者互动与产业合作 - 公司感谢全球开发者关注 重视开源社区建设性意见 [2] - 希望通过开源与合作伙伴共同优化模型能力 加速技术突破与产业落地 [2] - 邀请开发者在Ascend Tribe开源社区进行专业技术交流 [3]
华为,重大发布!
新华网财经· 2025-06-20 20:17
盘古大模型进展 - 盘古大模型5.5发布,在自然语言处理、多模态等5大基础模型全面升级,加速行业智能化[1] - 发布盘古医学、金融、政务、工业、汽车五个行业自然语言大模型,6月底正式上线[1] - 盘古大模型已在30多个行业、500多个场景中落地,覆盖政务、金融、制造、医疗等多个领域[1] - 推出参数规模高达7180亿的盘古Ultra MoE模型,全流程在昇腾AI计算平台训练[1] 盘古Ultra MoE技术突破 - 采用Depth-Scaled Sandwich-Norm架构和TinyInit小初始化方法,实现超过18TB数据的长期稳定训练[2] - 使用EP loss负载优化方法,保证专家负载均衡并提升领域特化能力[2] - 采用MLA和MTP架构,使用Dropless训练策略,平衡模型效果与效率[2] - 在昇腾CloudMatrix 384超节点上打通大稀疏比MoE强化学习后训练框架关键技术[3] 训练性能提升 - 预训练系统加速技术迭代升级,万卡集群预训练MFU由30%提升至41%[3] - 盘古Pro MoE大模型参数量720亿,激活160亿,性能媲美千亿级模型[3] - 在SuperCLUE 2025年5月排行榜上,盘古Pro MoE位居千亿参数量以内大模型国内并列第一[3] 鸿蒙6发布 - 鸿蒙6操作系统首次亮相,带来全新互联和智能体验[4] - HMAF鸿蒙智能体框架赋能应用和元服务智能化升级[4] - 鸿蒙生态进入加速阶段,超30000个应用及元服务在开发中,覆盖近20个行业[5] - 注册开发者数量突破800万,生态面临百万级人才缺口[5] 行业影响 - 证明在国产AI算力平台(昇腾)上能高效训练国际顶尖水平的超大规模稀疏模型[4] - 实现从硬件到软件、从训练到优化的全栈国产化和全流程自主可控[4]
华为突破制裁的密码,藏在“384超节点”中
虎嗅APP· 2025-06-17 18:55
核心观点 - 华为通过系统工程创新弥补芯片工艺落后问题,推出"昇腾 CloudMatrix 384超节点"算力集群解决方案,性能超越英伟达B200 NVL 72平台 [3][4] - 公司采用"以非摩尔补摩尔、以集群补单芯片"策略,通过全互联对等架构和全局资源调度实现算力突破 [3][4][8] - 昇腾生态通过兼容主流框架和推出迁移工具逐步解决"易用性"问题,并计划开源盘古模型技术代码 [12][13] 技术突破 架构设计 - 采用全对等高速互联架构,通信带宽提升15倍,单跳时延从2微秒降至200纳秒 [8] - 实现全局内存统一编址,支持跨节点直接内存访问,优化大模型训练中的参数同步效率 [8] - 细粒度动态切分技术将计算与通信耗时比从1:1提升至3:1,针对MoE模型专家分布优化资源分配 [8] 协同创新 - 集结超万人团队跨部门作战,整合硬件工程、基础软件等领域积累实现技术协同 [9][10] - 利用自研400G光模块和OXC技术解决大规模集群互联问题 [9] - 内部"技术飞轮"机制通过基础大模型研发反哺算力底座优化 [10] 性能表现 - 384颗昇腾芯片提供300 PFLOPs稠密BF16算力,超越英伟达B200 NVL 72平台的180 PFLOPs [3] - 盘古Ultra MoE准万亿模型和Pro MoE模型在SuperCLUE榜单取得百亿模型榜首成绩 [10] - 大模型训练故障恢复时间从小时级缩短至分钟级 [13] 生态建设 - CANN异构计算架构兼容PyTorch/TensorFlow等主流框架 [12] - 昇思MindSpore推出MSAdaptor迁移工具,保持与PyTorch API一致性 [12] - 组建"小巧灵突击队"深入关基行业提供现场支持 [13]
华为揭秘:国产昇腾训出世界一流大模型
观察者网· 2025-05-30 16:35
华为盘古Ultra MoE模型发布 - 公司推出参数规模高达7180亿的全新模型盘古Ultra MoE 这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型 [1] - 公司发布盘古Ultra MoE模型架构和训练方法的技术报告 披露众多技术细节 体现昇腾在超大规模MoE训练性能上的跨越 [1] - 模型架构采用Depth-Scaled Sandwich-Norm稳定架构和TinyInit小初始化方法 在昇腾平台上实现超过18TB数据的长期稳定训练 [1] - 提出EP loss负载优化方法 保证专家间负载均衡并提升领域特化能力 [1] - 使用业界先进的MLA和MTP架构 在预训练和后训练阶段采用Dropless训练策略 实现模型效果与效率的最佳平衡 [1] 训练方法创新 - 在昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架关键技术 使RL后训练进入超节点集群时代 [2] - 预训练系统加速技术完成迭代升级 包括自适应流水掩盖策略 算子执行序优化 内存优化策略 数据重排等 [2] - 技术升级使万卡集群预训练MFU由30%大幅提升至41% [2] - 盘古Pro MoE大模型参数量720亿 激活160亿参数量 通过动态激活专家网络设计 实现媲美千亿级模型的性能 [2] - 盘古Pro MoE在SuperCLUE 2025年5月排行榜上位居千亿参数量以内大模型排行并列国内第一 [2] 行业影响 - 公司完成国产算力+国产模型全流程自主可控的训练实践 [3] - 集群训练系统性能实现业界领先 [3] - 国产AI基础设施自主创新能力得到进一步验证 为中国人工智能产业发展提供支持 [3]
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
华尔街见闻· 2025-05-29 08:57
混合专家模型技术突破 - 华为盘古团队提出分组混合专家模型(MoGE),通过专家分组机制实现跨设备计算负载均衡,在4K昇腾大规模集群上高效训练 [1] - MoGE架构下盘古Pro MoE大模型(72B总参数/16B激活参数)在昇腾300I Duo和800I A2平台分别实现321 tokens/s和1528 tokens/s的推理速度 [1] - 传统MoE存在专家激活频次高度不均衡问题,导致系统效率瓶颈,而MoGE通过硬约束负载均衡策略解决这一行业难题 [6][7] 模型性能表现 - 盘古Pro MoE以72B总参数量在SuperCLUE榜单获得58.75分,千亿参数量以内大模型排行并列国内第一 [2][3] - 在MMLU-Pro(5-shot)测试中得分63.5,显著高于同规模稠密模型GLM4(55.8)和Gemma3(50.3) [24] - 中文能力突出,在C-Eval(5-shot)和CMMLU(5-shot)分别取得90.6和89.0的EM分数,领先多数对比模型 [24] 技术创新细节 - 采用分组均衡路由技术,将专家均匀划分为M组,每组独立进行Top-K路由,确保组间负载差异为0 [16] - 引入Batch级辅助均衡损失函数,超参数α控制强度,f_i表示批次中被路由到专家i的token占比 [14] - 通过三层架构仿真策略(粗粒度筛选→候选集缩减→算子级仿真)优化昇腾平台亲和性 [15] 硬件适配优化 - 深度融合昇腾300I Duo/800I A2硬件加速架构特性,实现混合并行与通信优化等软硬协同创新 [18] - 在昇腾300I Duo平台单卡吞吐达201 tokens/s,经MTP解码优化提升至321 tokens/s [18] - 对比DeepSeek-V2的专家负载集中现象(最高处理30% token量),盘古Pro MoE实现各专家均匀分布(约12.5%) [26] 行业应用价值 - 推动大模型从参数竞赛转向实效主义,通过动态负载均衡技术降低云端推理成本 [27] - 轻量化推理引擎适配华为昇腾芯片,赋能客户运行百亿级模型,开辟AI产业应用新蓝海 [27] - 在代码生成(HumanEval 63.7 Pass@1)和数学推理(GSM8K 86.5 EM)等复杂任务展现领先性能 [24]
华为盘古大模型首次打榜:昇腾原生 72B MoE 模型登顶 SuperCLUE 千亿内模型榜首
第一财经· 2025-05-28 21:36
混合专家模型(MoE)技术突破 - 传统MoE架构面临专家激活频次不均衡问题,导致跨设备并行时系统效率瓶颈显著[9][14] - 华为盘古团队创新提出分组混合专家模型(MoGE),通过动态分组机制实现跨设备计算资源均衡调度,突破工程落地瓶颈[10][16] - MoGE架构将专家均匀划分为不重叠组,每组独立进行Top-K路由,确保计算负载均匀分布[17][18] 盘古Pro MoE性能表现 - 模型总参数量720亿(激活参数量160亿),在昇腾300I Duo和800I A2芯片上分别实现321 tokens/s和1528 tokens/s的推理效率[2][22] - 在SuperCLUE榜单以720亿参数量获59分综合评分,千亿参数量内模型并列国内第一,160亿激活参数量媲美更大规模模型性能[2][26] - 对比6710亿参数的DeepSeek-R1等千亿级模型,以1/10参数量实现同级别综合能力[3][29] 昇腾原生架构优势 - 采用分组均衡路由技术,专家负载分布均衡性较传统架构显著提升,各专家处理token占比均约12.5%[19][29] - 深度融合昇腾硬件加速架构并行计算特性,通过算子级编译优化实现软硬协同[10][22] - 架构仿真采用分层策略,通过粗粒度筛选到细粒度调优三阶段确定最优超参数配置[20] 行业应用价值 - 动态负载均衡技术显著降低云端推理成本,使中小企业能够驾驭大模型[31] - 构建"架构-芯片-引擎"闭环,使百亿级模型在工业质检、智能客服等场景实现高效部署[31][32] - 推动AI技术向"高效能、低成本"实用化方向发展,重构产业智能化路径[3][32] 模型能力验证 - 英语能力覆盖通用推理、阅读理解及常识推理,中文评估包含知识问答和阅读理解等[25] - 在BBH、MMLU、C-Eval等基准测试中超越同规模稠密模型(Qwen3-32B、GLM4-Z1-32B)和MoE模型(Llama4 Scout)[26][28] - 复杂推理任务表现突出,在HumanEval、MATH、GSM8K等评测中达到同规模最优[26][28]
首次打榜就登顶,华为盘古如何以小胜大?
虎嗅APP· 2025-05-28 21:34
华为MoGE架构技术突破 - 华为盘古团队提出分组混合专家模型(MoGE),基于该架构构建的盘古Pro MoE大模型总参数72B,激活参数16B,在昇腾300I Duo和800I A2平台实现321 tokens/s和1528 tokens/s的计算效率 [2] - MoGE架构克服传统MoE负载不均衡及效率瓶颈,通过分组均衡路由技术确保跨设备负载均衡,结合仿真优化算法实现昇腾硬件亲和性设计 [6][12] - 盘古Pro MoE在SuperCLUE榜单以59分位列千亿参数量以内大模型国内第一,16B激活参数量媲美更大规模模型 [2][4] 技术原理与工程实现 - 分组均衡路由将专家均匀划分为M组,每组独立Top-K路由,全局激活数=组数×每组激活数,实现组间负载差异为0并避免通信瓶颈 [12] - 采用Batch级辅助均衡损失函数控制专家权重分布,结合分层策略与算子级仿真器优化昇腾平台上的精度与推理效率 [13][14] - 深度融合昇腾硬件加速架构并行计算特性,通过混合并行、通信优化、量化压缩及高性能算子(如MulAttention/SwiftGMM)实现推理加速 [16] 性能与行业影响 - 昇腾300I Duo单卡吞吐达201 tokens/s(MTP解码优化后321 tokens/s),昇腾800I A2单卡吞吐1148 tokens/s(优化后1528 tokens/s),显著领先同规模稠密模型 [16] - 在MMLU(EM 89.3)、C-Eval(EM 91.1)、LiveCodeBench(Pass@1 62.6)等跨语言多领域测试中超越同规模开源模型(Qwen3-32B/GLM4-Z1-32B) [18][19] - 专家负载分布接近理论理想值(各专家处理token占比约12.5%),相比DeepSeek-V2(最高30%)实现硬件效率革命 [20] 行业范式转变 - 从参数军备竞赛转向实效主义,动态负载均衡技术降低云端推理成本,轻量化推理引擎适配昇腾芯片赋能百亿级模型部署 [23] - 标志大模型进入工业化部署新阶段,为高并发实时场景提供支持,重新定义AI产业应用的"高效普惠"智能底座 [23]
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
机器之心· 2025-05-28 16:09
混合专家模型技术革新 - 华为盘古团队提出分组混合专家模型(MoGE),通过分组机制解决传统MoE专家激活频次不均衡问题,在4K昇腾集群实现高效训练 [2] - MoGE架构下盘古Pro MoE模型(72B总参数/16B激活参数)在昇腾300I Duo和800I A2硬件上分别实现321 tokens/s和1528 tokens/s的推理速度 [2] - 分组均衡路由技术强制每个token在预定义专家组内激活等量专家,确保跨设备负载均衡,组间负载差异为0 [12][21] 模型性能表现 - 盘古Pro MoE以72B总参数量在SuperCLUE榜单获59分,千亿参数以内模型并列国内第一,16B激活参数媲美更大规模模型 [3] - 在MMLU-Pro(63.5 EM)、C-Eval(90.6 EM)、HumanEval(63.7 Pass@1)等基准测试中超越同规模稠密模型和MoE模型 [27] - 对比DeepSeek-V2的专家负载集中现象(最高30% token量),盘古Pro MoE实现各专家12.5% token处理的均匀分布 [29] 昇腾硬件协同优化 - 采用分层仿真策略优化昇腾300I Duo/800I A2平台的算子级编译,通过TFLOPS、内存带宽等硬件参数关联搜索最优并行策略 [19][22] - 结合MTP解码和多token优化,昇腾300I Duo单卡吞吐从201 tokens/s提升至321 tokens/s,800I A2平台高并发下达1528 tokens/s [24] - 深度融合昇腾硬件加速架构的并行特性,实现从算法设计到系统落地的全栈创新 [6] 行业应用价值 - 动态负载均衡技术有效降低云端推理成本,支持高并发实时场景,轻量化引擎适配昇腾芯片赋能百亿级模型部署 [31] - 推动大模型从参数竞赛转向实效主义,为企业级应用提供高效普惠的智能底座 [30] - 在代码生成、数学推理等复杂任务中展现同规模最优性能,为AI工业化部署提供新范式 [7][28]