中国AI产业突破 - 华为发布参数规模高达7180亿的全新模型盘古Ultra MoE,实现全流程在昇腾AI计算平台训练的准万亿MoE模型 [1] - 华为披露盘古Ultra MoE模型架构和训练方法技术细节,证明昇腾在超大规模MoE训练性能上的跨越 [1] - 华为完成国产算力+国产模型全流程自主可控训练实践,集群训练系统性能业界领先 [1] 国产算力与模型技术细节 - 华为盘古团队提出Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化方法,实现超过18TB数据的长期稳定训练 [3] - 华为采用EP loss负载优化方法,保证专家间负载均衡并提升领域特化能力 [3] - 盘古Ultra MoE使用MLA和MTP架构,采用Dropless训练策略,实现模型效果与效率的最佳平衡 [3] 训练方法突破 - 华为在昇腾CloudMatrix 384超节点上打通大稀疏比MoE强化学习后训练框架关键技术,使RL后训练进入超节点集群时代 [4] - 华为优化预训练系统加速技术,万卡集群预训练MFU由30%提升至41% [4] - 盘古Pro MoE模型通过动态激活专家网络设计,以720亿参数量实现媲美千亿级模型的性能表现 [4] 国内大模型动态 - 深度求索公司完成DeepSeek-R1模型小版本试升级,该模型在多项标准化指标上优于西方竞争对手且成本仅数百万美元 [7] - 腾讯在2025腾讯云AI产业应用峰会上首次全景亮相大模型战略,包括混元大模型、AI云基础设施等产品全面升级 [8] - 腾讯混元TurboS在Chatbot Arena排名全球前八,国内仅次于DeepSeek,代码和数学等理科能力进入全球前十 [9] 行业应用与合作 - 腾讯旗下多款AI应用接入DeepSeek R1-0528模型,用户可体验深度思考、编程和长文本处理等能力 [10]
华为,重大突破!
证券时报·2025-05-30 21:21