重磅！华为发布准万亿大模型

华为盘古Ultra MoE模型突破 - 公司推出参数规模高达7180亿的全新模型盘古Ultra MoE，实现全流程在昇腾AI计算平台训练的准万亿MoE模型 [1] - 披露模型架构和训练方法技术报告，体现昇腾在超大规模MoE训练性能上的跨越 [1] - 针对训练稳定性难题，团队创新设计Depth-Scaled Sandwich-Norm架构和TinyInit小初始化方法，实现18TB数据长期稳定训练 [4] - 采用EP loss负载优化方法保证专家间负载均衡并提升领域特化能力，结合MLA/MTP架构及Dropless策略实现效果与效率平衡 [4] 昇腾平台技术进展 - 在昇腾CloudMatrix 384超节点上打通大稀疏比MoE强化学习后训练框架关键技术，使RL后训练进入超节点集群时代 [5] - 通过自适应流水掩盖策略、算子优化、内存管理等技术迭代，万卡集群预训练MFU从30%提升至41% [5] - 盘古Pro MoE模型以720亿参数量实现媲美千亿级模型的性能，在SuperCLUE榜单中位列千亿级以内国内并列第一 [5] 国产AI全栈自主可控意义 - 实现国产算力+国产模型全流程自主可控训练实践，集群训练系统性能达业界领先水平 [3] - 证明昇腾平台可高效稳定训练国际顶尖水平超大规模稀疏模型，完成从硬件到软件的全栈国产化闭环 [6] 其他国产大模型动态 - DeepSeek-R1-0528模型开源，代码能力媲美OpenAI o3高版本，上下文长度扩展至128k且文本理解能力显著提升 [7] - 腾讯在AI产业应用峰会展示混元大模型矩阵升级，涵盖云基础设施、开发工具及场景应用，推动企业AI化转型 [7][8]