华为盘古Ultra MoE模型突破 - 公司推出参数规模高达7180亿的全新模型盘古Ultra MoE,实现全流程在昇腾AI计算平台训练的准万亿MoE模型 [1] - 披露模型架构和训练方法技术报告,体现昇腾在超大规模MoE训练性能上的跨越 [1] - 针对训练稳定性难题,团队创新设计Depth-Scaled Sandwich-Norm架构和TinyInit小初始化方法,实现18TB数据长期稳定训练 [4] - 采用EP loss负载优化方法保证专家间负载均衡并提升领域特化能力,结合MLA/MTP架构及Dropless策略实现效果与效率平衡 [4] 昇腾平台技术进展 - 在昇腾CloudMatrix 384超节点上打通大稀疏比MoE强化学习后训练框架关键技术,使RL后训练进入超节点集群时代 [5] - 通过自适应流水掩盖策略、算子优化、内存管理等技术迭代,万卡集群预训练MFU从30%提升至41% [5] - 盘古Pro MoE模型以720亿参数量实现媲美千亿级模型的性能,在SuperCLUE榜单中位列千亿级以内国内并列第一 [5] 国产AI全栈自主可控意义 - 实现国产算力+国产模型全流程自主可控训练实践,集群训练系统性能达业界领先水平 [3] - 证明昇腾平台可高效稳定训练国际顶尖水平超大规模稀疏模型,完成从硬件到软件的全栈国产化闭环 [6] 其他国产大模型动态 - DeepSeek-R1-0528模型开源,代码能力媲美OpenAI o3高版本,上下文长度扩展至128k且文本理解能力显著提升 [7] - 腾讯在AI产业应用峰会展示混元大模型矩阵升级,涵盖云基础设施、开发工具及场景应用,推动企业AI化转型 [7][8]
重磅!华为发布准万亿大模型
每日经济新闻·2025-05-30 19:41