Workflow
MoE模型
icon
搜索文档
腾讯混元首个开源混合推理MoE模型在魔搭社区首发
快讯· 2025-06-27 17:56
腾讯混元开源MoE模型Hunyuan-A13B - 公司于6月27日在魔搭社区首发混合推理MoE模型Hunyuan-A13B [1] - 该模型总参数规模达80B,激活参数仅13B,是业界首个13B级别的开源混合推理MoE模型 [1] - 模型效果比肩同等架构的领先开源模型 [1] - 开发者可通过更低门槛方式获得领先的模型能力 [1]
华为,重大发布!
证券时报· 2025-06-20 18:40
盘古大模型5.5发布 - 盘古大模型5.5在自然语言处理、多模态等5大基础模型全面升级,加速行业智能化 [1] - 发布盘古医学、金融、政务、工业、汽车五个行业自然语言大模型,6月底正式上线 [1] - 过去一年已在30多个行业、500多个场景中落地,覆盖政务、金融、制造、医疗等关键领域 [1] 盘古Ultra MoE模型技术突破 - 推出参数规模达7180亿的盘古Ultra MoE模型,全流程在昇腾AI平台训练 [1] - 采用Depth-Scaled Sandwich-Norm架构和TinyInit小初始化方法,实现18TB数据长期稳定训练 [2] - 创新EP loss负载优化方法,提升专家负载均衡和领域特化能力 [2] - 使用MLA和MTP架构,结合Dropless训练策略,平衡模型效果与效率 [2] 训练方法升级与性能提升 - 在昇腾CloudMatrix 384超节点上打通大稀疏比MoE强化学习后训练框架 [3] - 预训练系统MFU从30%提升至41%,通过自适应流水掩盖、内存优化等关键技术 [3] - 盘古Pro MoE模型以720亿参数量实现媲美千亿级模型的性能,位列SuperCLUE榜单国内第一 [3] 昇腾平台全栈国产化意义 - 证明国产昇腾平台可高效训练国际顶尖水平的超大规模稀疏模型 [4] - 实现硬件到软件、训练到优化的全流程自主可控闭环 [4] 鸿蒙6操作系统生态进展 - 鸿蒙6首次亮相,带来更低时延和更开放AI能力 [4] - HMAF鸿蒙智能体框架赋能应用智能化升级 [4] - 生态加速发展,超30000个应用及元服务在开发中,覆盖20个行业 [5] - 注册开发者突破800万,面临百万级人才缺口 [5]
2025H2新型硬件展望:从科技树节点,看新型硬件
申万宏源证券· 2025-06-09 15:39
报告行业投资评级 未提及 报告的核心观点 采用“硬件Y - 软件X”轴预测新型硬件创新,串联不同时间科技创新进展与前景指引投资方向;2B市场关注光器件、硅光、GPU等高端化机会,2C市场关注车载、RoboVan、可穿戴等机会;架构创新和“物理化学生物AI”易被低估,带来国产科技硬件发展机会;长期机会与创新更重要,附录提供科技树和技术复杂度素材辅助理解[4]。 根据相关目录分别进行总结 基于“硬件Y - 软件X”轴的预测 - 2022H2展望呈现“硬件Y - 软件X”创新轴,展示不同软硬件组合及发展阶段[11] - 2024年底观察到新增ARM、AI眼镜等机会,行业和服务机器人有进展[13] - 2025H2展望在智联汽车、XR等领域有新变化,如增加RoboTaxi、生物 - 电子融合硬件等[16] - 2025H2创新轴对应的硬件机会包括AIPC、AI笔记本等,中长期机会更重要,还涉及算网、算力、材料等方面的发展及问题[18] 2B市场:光器件 + 硅光 + GPU + 高端化 光器件 - 过去算网受“Scaling Law”驱动,光通信量价齐升,不同系列产品对光模块用量有提升[24][26] - 现在AI“非典型”周期打破惯性,MoE架构是光通信需求高成长关键,结合算力多元化等因素带动光通信发展[27][32] - MoE下光器件通信特点与过去不同,带来内存访问和负载均衡增量,但也存在系统效率、通信等挑战[34][42] - 华为CloudMatrix384有MoE优化技术,英伟达也有类似趋势改变[48][51] 硅光 - 高速光通信下一节点是硅光,市场爆发临近,三场景共进以提高集成度、满足带宽增长和降低功耗[56][59] - 硅光产业爆发因VCSEL芯片带宽提升有技术瓶颈,其产业链与传统光模块产业链不同,技术难点是光电集成[61][64] - 中际旭创和光迅科技是硅光代表性企业,在硅光芯片研发和产品出货方面有进展[67][69] 半导体 - 半导体是AI基础,中国在半导体领域有进步,从全球代工和封测排名可见[70][74] - 中系Fab在全球高端市场追赶节点,如中芯国际等[76] - 国产KrF、ArF光刻机完成首台生产并进入推广应用阶段,有相应性能参数[78][81] GPU - 国产算力迈入千卡集群,GPU赛道有众多明星项目,不同厂商的GPU型号在工艺、算力等方面各有特点[84] 半导体趋势 - “DeepSeek时刻”架构关键,等效线宽在先进制程中多为等效概念,AI下晶体管密度有新变化[85][88] - 架构创新未必是单点提价,可解决性能翻倍的功耗和成本问题,如华为手机芯片案例[89][91] 2C市场:车载 + RoboVan + 可穿戴 + 生物电子互动设备 RoboVan - 存在技术外溢关系,涉及智能车、机器人、低空经济、深海科技等多个领域的产业复用[98][101] - 上下游格局包括芯片、算法、传感器等供应商,以及物流、配送等运营商,UE与ROI有吸引力,但存在一定风险[103][107] 车载芯片 - 2025年车载芯片高端化,智驾软硬件成熟,质价比提升,传统主机厂带动价格带下沉,NOA渗透率有提升空间[108][111] - 高阶芯片国产化、算法方案成熟、配置下放等因素推动发展,主机厂自研智驾芯片有进展[112][117] 激光雷达 - 2025年激光雷达有新发展,用于多个领域,物理AI和世界模型崛起使其成为智驾方案新选择[123][131] - 竞争格局逐渐明朗,“四巨头”格局显现[134] AR + AI眼镜 - 2025H2 - 2026年有变化,涉及3D传感、高刷新率、低延迟等方面,不同方案有优劣势[135][141] 新兴AI可穿戴 - 应重视BCI(脑机接口),有非侵入式与半侵入式创新成果[142][143] 一二级机会 未提及 附录:科技树、技术复杂度 未提及具体内容总结信息
爆改大模型训练,华为打出昇腾+鲲鹏组合拳
虎嗅APP· 2025-06-04 18:35
《华为技术披露集》系列 VOL.10 :昇腾+鲲鹏 HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 在通往更强大的AI路上,MoE已成为科技巨头另一个首选路径。 只要Scal ...
大模型训练,一半时间在摸鱼?
虎嗅APP· 2025-06-03 17:58
华为MoE架构优化技术 核心观点 - 华为提出MoGE架构优化方案,克服传统MoE模型负载不均衡及效率瓶颈问题,实现降本增效并便于训练部署 [1] - 公司通过Adaptive Pipe通信掩盖框架和EDPB全局负载均衡技术,显著提升MoE模型训练效率,在Pangu Ultra MoE 718B模型8K序列训练中实现72.6%的吞吐提升 [24][25] 技术方案细节 MoE训练效率挑战 - 专家并行(EP)导致计算单元空闲等待通信,模型规模较大时All-to-All通信造成50%以上训练时间浪费 [4][5] - 负载不均现象突出:热专家调用频率达冷专家数倍,不同模型层计算量差异明显 [5][6] DeployMind仿真平台 - AutoDeploy仿真平台通过三维建模和昇腾硬件映射,1小时内完成百万次训练场景模拟,并行策略选择精度达90% [9] - 针对Pangu Ultra MoE 718B模型,自动生成TP8/PP16/VPP2/EP32最优并行方案 [9] Adaptive Pipe通信优化 - 层次化All-to-All通信将跨机器传输数据块拷贝量减少50%,机内高速通道利用率提升1倍 [11] - 虚拟流水线并行技术使内存占用减半,实现98%以上EP通信掩盖率 [12][13] EDPB负载均衡 - 专家预测动态迁移技术通过多目标优化实现专家智能调度,包含预测先行/双层优化/智能触发三重机制 [18] - 数据重排和虚拟流水线层间均衡技术分别解决Attention计算和Stage间等待问题 [20][21] - 在基础优化上额外带来25.5%吞吐提升 [16][25] 行业技术演进 - MoE模型从加拿大理论雏形到硅谷工程突破,现由中国企业主导架构创新,华为MoGE架构体现"多快好省"技术路线 [1] - 昇腾生态通过系列技术披露推动开放协作,加速大模型本土化发展 [1][31]
华为的准万亿大模型,是如何训练的?
虎嗅APP· 2025-05-30 18:18
现在,请大家一起数一下"1"、"2"。 OK,短短2秒钟时间,一个准万亿MoE大模型就已经吃透如何解一道高等数学大题了。 HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华 ...
华为揭秘:国产昇腾训出世界一流大模型
观察者网· 2025-05-30 16:35
在训练方法上,华为团队首次披露在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习 (RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。同时,在5月初发布的预训练系统 加速技术基础上,在不到一个月的时间内,华为团队又完成了一轮迭代升级,包括:适配昇腾硬件的自 适应流水掩盖策略,进一步优化算子执行序,进一步降低Host-Bound以及提升EP通信的掩盖;自适应 管理内存优化策略的开发;数据重排实现DP间Attention负载均衡;以及昇腾亲和的算子优化,这些技 术实现万卡集群预训练MFU由30%大幅提升至41%。 此外,近期发布的盘古Pro MoE大模型,在参数量仅为720亿,激活160亿参数量的情况下,通过动态激 活专家网络的创新设计,实现了以小打大的优异性能,甚至可以媲美千亿级模型的性能表现。在业界权 威大模型榜单SuperCLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第 一。 华为盘古Ultra MoE和盘古Pro MoE系列模型的发布,证明华为不仅完成了国产算力+国产模型的全流程 自主可控的训练实践,同时在集群训练系统的性能上也实现了业界 ...
华为发布准万亿模型Pangu Ultra MoE模型架构和训练细节
快讯· 2025-05-30 15:33
近日,华为在MoE模型训练领域再进一步,推出参数规模高达7180亿的全新模型——盘古Ultra MoE, 这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和 训练方法的技术报告,披露众多技术细节,充分体现了昇腾在超大规模MoE训练性能上的跨越。据悉, 训练超大规模和极高稀疏性的MoE模型极具挑战,训练过程中的稳定性往往难以保障。针对这一难题, 盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾平台上实现了准万亿MoE模型的全 流程训练。(人民财讯) ...
Pangu Ultra准万亿MoE模型:业界一流,源自昇腾原生的长稳训练
雷峰网· 2025-05-29 19:44
Pangu Ultra MoE 是一个全流程在昇腾 NPU 上训练的准万亿 MoE 模型。最近华为盘古团队发布了 Pangu Ultra MoE 模型架构和训练方法的技术报告 [1] ,进一步披露了这个模型的细节。 训练 超大规模和极高稀疏性的 MoE 模型 极具挑战,训练过程中的稳定性往往难以保障。针对这一难 题,盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾 NPU 上 实现了 准万亿 MoE 模 型的全流程训练。 盘古团队 提出 Depth-Scaled Sandwich-Norm ( DSSN ) 稳定架构 和 TinyInit 小初始化 的 方法, 在昇腾 NPU 上实现了 10+ T tokens 数据的长期稳定训练 。 此外,他们 还 提出了 EP loss 负载优化 方法 , 这一设计不仅保证了 各个专家之间的能保持较好的负载 均衡, 也 提升了专家的 领域 特化能 力。 同时, Pangu Ultra MoE 使用了业界先进的 MLA 和 MTP 架构,在训练时使用了 Dropless 训练 策略。 " 对硬件特性的深度挖掘和算法创新,是华为引领AI技术的硬实 力。 " 作者丨 ...
Pangu Ultra准万亿MoE模型:业界一流,源自昇腾原生的长稳训练
第一财经· 2025-05-29 18:50
Pangu Ultra MoE是一个全流程在昇腾NPU上训练的准万亿MoE模型。最近华为盘古团队发布了Pangu Ultra MoE模型架构和训练方法的技术报告[1],进一步披露了 这个模型的细节。 训 练 超大规模和极高稀疏性的 MoE 模型 极具挑战,训练过程中的稳定性往往难以保障。针对这一难题,盘古团队在模型架构和训练方法上进行了创新性设计, 成功地在昇腾 NPU 上实现了准万亿 MoE 模型的全流程训练。 盘古团队提出 Depth-Scaled Sandwich-Norm(DSSN)稳定架构 和 TinyInit 小初始化 的方法,在昇腾 NPU 上实现了 10+ T tokens 数据的长期稳定训练。此外,他们 还提出了 EP group loss 负载优化 方法,这一设计不仅保证了各个专家之间能保持较好的负载均衡,也提升了专家的领域特化能力。同时,Pangu Ultra MoE 使用了 业界先进的 MLA 和 MTP 架构,在训练时使用了 Dropless 训练策略。 破解准万亿 MoE 模型性能瓶颈 打造芯片协同的先进架构 近期,盘古团队在 MoE 模型训练领域再进一步,重磅推出参数规模高达 7 ...