Workflow
重大突破!刚刚,华为发布!
券商中国·2025-05-30 18:43

中国AI产业重大突破 - 华为发布参数规模高达7180亿的盘古Ultra MoE模型,实现全流程在昇腾AI计算平台训练的准万亿MoE模型,技术细节公开体现昇腾超大规模训练性能跨越 [1] - 盘古Ultra MoE采用Depth-Scaled Sandwich-Norm稳定架构和TinyInit小初始化方法,在昇腾平台实现18TB数据长期稳定训练,EP loss负载优化提升专家领域特化能力 [2] - 华为在昇腾CloudMatrix 384超节点打通大稀疏比MoE强化学习后训练框架,预训练系统MFU从30%提升至41%,盘古Pro MoE以720亿参数量实现媲美千亿级模型的性能 [3] 国产AI全栈能力验证 - 华为实现国产算力+国产模型全流程自主可控训练,集群训练系统性能达业界领先水平,标志国产AI基础设施自主创新能力突破 [1] - 盘古团队在模型架构、训练方法、硬件适配等环节实现全栈创新,包括MLA/MTP架构、Dropless训练策略等,达成模型效果与效率最佳平衡 [2][3] - 行业认为此举证明国产昇腾平台可高效训练国际顶尖水平稀疏模型,完成从硬件到软件、研究到落地的全流程闭环 [4] 国内大模型动态 - 深度求索公司升级DeepSeek-R1模型,其V3版本在海外评测中超越xAI Grok3和OpenAI GPT-4.5,成为得分最高非推理模型 [5] - 腾讯混元大模型战略全景亮相,混元TurboS在Chatbot Arena排名全球前八,代码/数学能力进入全球前十,多款AI应用接入DeepSeek R1-0528 [6] - 深度求索R1模型以数百万美元成本实现优于西方竞品的标准化表现,引发全球科技股震荡 [5]