全栈国产化

搜索文档
华为首个!重磅发布!
证券时报· 2025-06-30 12:12
华为开源盘古大模型 - 公司宣布开源盘古70亿参数的稠密模型和720亿参数的混合专家模型(盘古Pro MoE 72B),并同步开源基于昇腾的模型推理技术 [1] - 此举是公司践行昇腾生态战略的关键举措,旨在推动大模型技术研究与创新发展,加速AI在千行百业的应用与价值创造 [1] 盘古Pro MoE 72B性能表现 - 开源的Pro MoE 72B大模型参数量为720亿,激活160亿参数量,通过动态激活专家网络设计实现以小打大的优异性能 [3] - 该模型在Super CLUE 2025年5月排行榜上位居千亿参数量以内大模型排行并列国内第一 [3] 华为大模型技术进展 - 公司在2025年华为开发者大会上发布盘古大模型5.5,包含五大基础模型面向NLP、多模态、预测、科学计算和计算机视觉领域 [4] - 会上还发布基于Cloud Matrix384超节点的新一代昇腾AI云服务,单卡推理吞吐量达2300Tokens/s [4] - 5月30日公司推出参数规模高达7180亿的盘古Ultra MoE模型,并发布相关技术报告 [4] 昇腾生态与国产化突破 - 盘古大模型基于昇腾云全栈软硬件训练完成,实现国产算力+国产模型全流程自主可控 [5] - 公司在集群训练系统性能上实现业界领先,完成从硬件到软件、从训练到优化的全栈国产化和全流程自主可控闭环 [5] 行业应用与落地 - 公司坚持"不作诗,只做事"战略,为千行万业提供智能化解决方案 [5] - 盘古大模型已在30多个行业、500多个场景中落地,覆盖政务、金融、制造、医疗等多个领域 [5] - 公司同步上线五大盘古行业思考大模型(医学、金融、政务、工业、汽车) [5] 开源战略意义 - 开源举措有助于更多开发者基于国产算力平台开发大模型技术,扩展昇腾生态 [7] - 开源将吸引更多垂直行业以盘古大模型为基础打造智能化解决方案,推动大模型更广泛赋能行业 [7]
华为,重大发布!
新华网财经· 2025-06-20 20:17
盘古大模型进展 - 盘古大模型5.5发布,在自然语言处理、多模态等5大基础模型全面升级,加速行业智能化[1] - 发布盘古医学、金融、政务、工业、汽车五个行业自然语言大模型,6月底正式上线[1] - 盘古大模型已在30多个行业、500多个场景中落地,覆盖政务、金融、制造、医疗等多个领域[1] - 推出参数规模高达7180亿的盘古Ultra MoE模型,全流程在昇腾AI计算平台训练[1] 盘古Ultra MoE技术突破 - 采用Depth-Scaled Sandwich-Norm架构和TinyInit小初始化方法,实现超过18TB数据的长期稳定训练[2] - 使用EP loss负载优化方法,保证专家负载均衡并提升领域特化能力[2] - 采用MLA和MTP架构,使用Dropless训练策略,平衡模型效果与效率[2] - 在昇腾CloudMatrix 384超节点上打通大稀疏比MoE强化学习后训练框架关键技术[3] 训练性能提升 - 预训练系统加速技术迭代升级,万卡集群预训练MFU由30%提升至41%[3] - 盘古Pro MoE大模型参数量720亿,激活160亿,性能媲美千亿级模型[3] - 在SuperCLUE 2025年5月排行榜上,盘古Pro MoE位居千亿参数量以内大模型国内并列第一[3] 鸿蒙6发布 - 鸿蒙6操作系统首次亮相,带来全新互联和智能体验[4] - HMAF鸿蒙智能体框架赋能应用和元服务智能化升级[4] - 鸿蒙生态进入加速阶段,超30000个应用及元服务在开发中,覆盖近20个行业[5] - 注册开发者数量突破800万,生态面临百万级人才缺口[5] 行业影响 - 证明在国产AI算力平台(昇腾)上能高效训练国际顶尖水平的超大规模稀疏模型[4] - 实现从硬件到软件、从训练到优化的全栈国产化和全流程自主可控[4]
重磅!华为发布准万亿大模型
每日经济新闻· 2025-05-30 19:41
华为盘古Ultra MoE模型突破 - 公司推出参数规模高达7180亿的全新模型盘古Ultra MoE,实现全流程在昇腾AI计算平台训练的准万亿MoE模型 [1] - 披露模型架构和训练方法技术报告,体现昇腾在超大规模MoE训练性能上的跨越 [1] - 针对训练稳定性难题,团队创新设计Depth-Scaled Sandwich-Norm架构和TinyInit小初始化方法,实现18TB数据长期稳定训练 [4] - 采用EP loss负载优化方法保证专家间负载均衡并提升领域特化能力,结合MLA/MTP架构及Dropless策略实现效果与效率平衡 [4] 昇腾平台技术进展 - 在昇腾CloudMatrix 384超节点上打通大稀疏比MoE强化学习后训练框架关键技术,使RL后训练进入超节点集群时代 [5] - 通过自适应流水掩盖策略、算子优化、内存管理等技术迭代,万卡集群预训练MFU从30%提升至41% [5] - 盘古Pro MoE模型以720亿参数量实现媲美千亿级模型的性能,在SuperCLUE榜单中位列千亿级以内国内并列第一 [5] 国产AI全栈自主可控意义 - 实现国产算力+国产模型全流程自主可控训练实践,集群训练系统性能达业界领先水平 [3] - 证明昇腾平台可高效稳定训练国际顶尖水平超大规模稀疏模型,完成从硬件到软件的全栈国产化闭环 [6] 其他国产大模型动态 - DeepSeek-R1-0528模型开源,代码能力媲美OpenAI o3高版本,上下文长度扩展至128k且文本理解能力显著提升 [7] - 腾讯在AI产业应用峰会展示混元大模型矩阵升级,涵盖云基础设施、开发工具及场景应用,推动企业AI化转型 [7][8]
重大突破!刚刚,华为发布!
券商中国· 2025-05-30 18:43
中国AI产业重大突破 - 华为发布参数规模高达7180亿的盘古Ultra MoE模型,实现全流程在昇腾AI计算平台训练的准万亿MoE模型,技术细节公开体现昇腾超大规模训练性能跨越 [1] - 盘古Ultra MoE采用Depth-Scaled Sandwich-Norm稳定架构和TinyInit小初始化方法,在昇腾平台实现18TB数据长期稳定训练,EP loss负载优化提升专家领域特化能力 [2] - 华为在昇腾CloudMatrix 384超节点打通大稀疏比MoE强化学习后训练框架,预训练系统MFU从30%提升至41%,盘古Pro MoE以720亿参数量实现媲美千亿级模型的性能 [3] 国产AI全栈能力验证 - 华为实现国产算力+国产模型全流程自主可控训练,集群训练系统性能达业界领先水平,标志国产AI基础设施自主创新能力突破 [1] - 盘古团队在模型架构、训练方法、硬件适配等环节实现全栈创新,包括MLA/MTP架构、Dropless训练策略等,达成模型效果与效率最佳平衡 [2][3] - 行业认为此举证明国产昇腾平台可高效训练国际顶尖水平稀疏模型,完成从硬件到软件、研究到落地的全流程闭环 [4] 国内大模型动态 - 深度求索公司升级DeepSeek-R1模型,其V3版本在海外评测中超越xAI Grok3和OpenAI GPT-4.5,成为得分最高非推理模型 [5] - 腾讯混元大模型战略全景亮相,混元TurboS在Chatbot Arena排名全球前八,代码/数学能力进入全球前十,多款AI应用接入DeepSeek R1-0528 [6] - 深度求索R1模型以数百万美元成本实现优于西方竞品的标准化表现,引发全球科技股震荡 [5]