Workflow
盘古Pro MoE大模型
icon
搜索文档
华为盘古团队声明:严格遵循开源要求
观察者网· 2025-07-05 17:32
华为盘古Pro MoE大模型争议 - 公司近期发布盘古Pro MoE大模型 采用动态激活专家网络设计 实现以小打大的优异性能 [1] - 开源社区研究指出盘古Pro MoE与阿里巴巴通义千问Qwen-2 5 14B模型参数结构存在"惊人一致" [1] - 公司回应强调盘古Pro MoE是基于昇腾硬件平台开发的基础大模型 并非基于其他厂商模型增量训练 [1][2] - 公司声明该模型是全球首个面向昇腾硬件平台设计的同规格混合专家模型 [1][2] 技术创新与架构设计 - 模型创新性提出分组混合专家模型(MoGE)架构 解决大规模分布式训练的负载均衡难题 [1][2] - 该架构显著提升训练效率 具体技术特性可参考昇腾生态竞争力系列技术报告 [2] - 模型部分基础组件代码实现参考业界开源实践 但严格遵循开源许可证要求 [1][2] 开源社区与知识产权 - 公司在开源代码文件中清晰标注第三方开源代码的版权声明 [1][2] - 强调该做法符合开源社区通行惯例和协作精神 [1][2] - 公司表示始终坚持开放创新 尊重第三方知识产权 [1][2] - 提倡包容 公平 开放 团结和可持续的开源理念 [1][2] 开发者互动与产业合作 - 公司感谢全球开发者关注 重视开源社区建设性意见 [2] - 希望通过开源与合作伙伴共同优化模型能力 加速技术突破与产业落地 [2] - 邀请开发者在Ascend Tribe开源社区进行专业技术交流 [3]
华为,重大发布!
新华网财经· 2025-06-20 20:17
值得一提的是,5月30日,证券时报·券商中国记者从华为获悉,华为在MoE模型训练领域再进一步,重 磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练 的准万亿MoE模型。同时,华为发布盘古Ultra MoE模型架构和训练方法的技术报告,披露众多技术细 节,充分体现了昇腾在超大规模MoE训练性能上的跨越。 据悉,训练超大规模和极高稀疏性的MoE模型极具挑战,训练过程中的稳定性往往难以保障。针对这一 难题,华为盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾平台上实现了准万亿 MoE模型的全流程训练。 "一年以来,盘古大模型深入行业解难题,在30多个行业、500多个场景中落地。"6月20日下午,在华为 开发者大会2025上,华为常务董事、华为云计算CEO张平安分享了盘古大模型在工业、农业、科研等领 域的丰富创新应用和落地实践,并重磅发布盘古大模型5.5,在自然语言处理、多模态等5大基础模型全 面升级,加速重塑千行万业。 会上,华为云还发布了盘古医学、金融、政务、工业、汽车五个具备深度思考能力的行业自然语言大模 型,加速行业智能化,并将在6月底正式上 ...
华为突破制裁的密码,藏在“384超节点”中
虎嗅APP· 2025-06-17 18:55
核心观点 - 华为通过系统工程创新弥补芯片工艺落后问题,推出"昇腾 CloudMatrix 384超节点"算力集群解决方案,性能超越英伟达B200 NVL 72平台 [3][4] - 公司采用"以非摩尔补摩尔、以集群补单芯片"策略,通过全互联对等架构和全局资源调度实现算力突破 [3][4][8] - 昇腾生态通过兼容主流框架和推出迁移工具逐步解决"易用性"问题,并计划开源盘古模型技术代码 [12][13] 技术突破 架构设计 - 采用全对等高速互联架构,通信带宽提升15倍,单跳时延从2微秒降至200纳秒 [8] - 实现全局内存统一编址,支持跨节点直接内存访问,优化大模型训练中的参数同步效率 [8] - 细粒度动态切分技术将计算与通信耗时比从1:1提升至3:1,针对MoE模型专家分布优化资源分配 [8] 协同创新 - 集结超万人团队跨部门作战,整合硬件工程、基础软件等领域积累实现技术协同 [9][10] - 利用自研400G光模块和OXC技术解决大规模集群互联问题 [9] - 内部"技术飞轮"机制通过基础大模型研发反哺算力底座优化 [10] 性能表现 - 384颗昇腾芯片提供300 PFLOPs稠密BF16算力,超越英伟达B200 NVL 72平台的180 PFLOPs [3] - 盘古Ultra MoE准万亿模型和Pro MoE模型在SuperCLUE榜单取得百亿模型榜首成绩 [10] - 大模型训练故障恢复时间从小时级缩短至分钟级 [13] 生态建设 - CANN异构计算架构兼容PyTorch/TensorFlow等主流框架 [12] - 昇思MindSpore推出MSAdaptor迁移工具,保持与PyTorch API一致性 [12] - 组建"小巧灵突击队"深入关基行业提供现场支持 [13]
华为揭秘:国产昇腾训出世界一流大模型
观察者网· 2025-05-30 16:35
在训练方法上,华为团队首次披露在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习 (RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。同时,在5月初发布的预训练系统 加速技术基础上,在不到一个月的时间内,华为团队又完成了一轮迭代升级,包括:适配昇腾硬件的自 适应流水掩盖策略,进一步优化算子执行序,进一步降低Host-Bound以及提升EP通信的掩盖;自适应 管理内存优化策略的开发;数据重排实现DP间Attention负载均衡;以及昇腾亲和的算子优化,这些技 术实现万卡集群预训练MFU由30%大幅提升至41%。 此外,近期发布的盘古Pro MoE大模型,在参数量仅为720亿,激活160亿参数量的情况下,通过动态激 活专家网络的创新设计,实现了以小打大的优异性能,甚至可以媲美千亿级模型的性能表现。在业界权 威大模型榜单SuperCLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第 一。 华为盘古Ultra MoE和盘古Pro MoE系列模型的发布,证明华为不仅完成了国产算力+国产模型的全流程 自主可控的训练实践,同时在集群训练系统的性能上也实现了业界 ...
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
华尔街见闻· 2025-05-29 08:57
当前,混合专家模型( Mixture of Experts, MoE)在大型语言模型中的兴起,使得以较小的计算开 销换取更大能力成为可能。然而,传统MoE普遍存在专家激活频次高度不均衡现象,当专家并行部署 于不同硬件设备时,易引发系统效率瓶颈。 为此,华为盘古团队提出 分组混合专家模型( Mixture of Grouped Experts, MoGE) ,通过在专 家选择阶段引入分组机制,可确保跨设备的计算负载均衡,成功在 4K昇腾大规模集群 进行高效训 练。 同时,基于 MoGE架构构建的 盘古 Pro MoE大模型(72B总参数、16B激活参数) 在昇腾 300I Duo和 800I A2可实现更优的专家负载分布与计算效率(321 tokens/s和1528 tokens/s)。 在模型能力方面,盘古 Pro MoE在最新一期业界权威大模型榜单SuperCLUE上交出了超能打的成 绩,实现了综合能力的领先。 具体来说,和其他动辄千亿以上的大模型(如 DeepSeek-R1具有671B参数)相比,盘古Pro MoE 以72B总参数量达到了59分,千亿参数量以内大模型排行并列国内第一。并且,16B激活参数量 ...
华为盘古大模型首次打榜:昇腾原生 72B MoE 模型登顶 SuperCLUE 千亿内模型榜首
第一财经· 2025-05-28 21:36
在 AI 的竞技场上,大型语言模型( LLMs )的军备竞赛正酣。其中,混合专家模型( Mixture of Experts, MoE )凭借 "低计算开销实现强能力" 的特性,已成为这场竞赛中的 "潜力黑马",备受瞩 目。 传统的 MoE 架构,虽有着理论上的优势,却在实际落地中遭遇 "滑铁卢"。专家激活频次不均衡,如 同潜藏在高效运行背后的 "暗礁",一旦专家并行部署在不同硬件设备上,系统效率瓶颈便会凸显, 大规模训练也因此举步维艰。这一难题,犹如达摩克利斯之剑,高悬在所有试图在 MoE 架构上大展 宏图的团队头顶。 针 对 这 一 挑 战 , 华 为 盘 古 团 队 近 期 创 新 性 的 提 出 了 分 组 混 合 专 家 模 型 ( Mixture of Grouped Experts, MoGE ),通过在专家选择阶段引入动态分组机制,从底层优化负载分配逻辑,实现跨设 备计算资源的均衡调度。这一架构革新使盘古大模型能够在 4K 昇腾大规模集群中完成高效训练,突 破了传统 MoE 的工程落地瓶颈。 基于 MoGE 架构打造的盘古 Pro MoE 大模型展现出卓越的工程实践能力:模型总参数量 720 ...
首次打榜就登顶,华为盘古如何以小胜大?
虎嗅APP· 2025-05-28 21:34
近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.6 :MoGE架构 HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近日,华为盘古团队提出了分组混合专家模型(Mixture of Group ...
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
机器之心· 2025-05-28 16:09
混合专家模型技术革新 - 华为盘古团队提出分组混合专家模型(MoGE),通过分组机制解决传统MoE专家激活频次不均衡问题,在4K昇腾集群实现高效训练 [2] - MoGE架构下盘古Pro MoE模型(72B总参数/16B激活参数)在昇腾300I Duo和800I A2硬件上分别实现321 tokens/s和1528 tokens/s的推理速度 [2] - 分组均衡路由技术强制每个token在预定义专家组内激活等量专家,确保跨设备负载均衡,组间负载差异为0 [12][21] 模型性能表现 - 盘古Pro MoE以72B总参数量在SuperCLUE榜单获59分,千亿参数以内模型并列国内第一,16B激活参数媲美更大规模模型 [3] - 在MMLU-Pro(63.5 EM)、C-Eval(90.6 EM)、HumanEval(63.7 Pass@1)等基准测试中超越同规模稠密模型和MoE模型 [27] - 对比DeepSeek-V2的专家负载集中现象(最高30% token量),盘古Pro MoE实现各专家12.5% token处理的均匀分布 [29] 昇腾硬件协同优化 - 采用分层仿真策略优化昇腾300I Duo/800I A2平台的算子级编译,通过TFLOPS、内存带宽等硬件参数关联搜索最优并行策略 [19][22] - 结合MTP解码和多token优化,昇腾300I Duo单卡吞吐从201 tokens/s提升至321 tokens/s,800I A2平台高并发下达1528 tokens/s [24] - 深度融合昇腾硬件加速架构的并行特性,实现从算法设计到系统落地的全栈创新 [6] 行业应用价值 - 动态负载均衡技术有效降低云端推理成本,支持高并发实时场景,轻量化引擎适配昇腾芯片赋能百亿级模型部署 [31] - 推动大模型从参数竞赛转向实效主义,为企业级应用提供高效普惠的智能底座 [30] - 在代码生成、数学推理等复杂任务中展现同规模最优性能,为AI工业化部署提供新范式 [7][28]