MoGE架构

搜索文档
一张卡干俩活,华为要把算力榨干
虎嗅APP· 2025-06-05 22:24
HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.11 :RL后训练 在大模型竞赛白热化的当下,「强化学习后训练」已成为突破LLM性能天花板的核 ...
爆改大模型训练,华为打出昇腾+鲲鹏组合拳
虎嗅APP· 2025-06-04 18:35
《华为技术披露集》系列 VOL.10 :昇腾+鲲鹏 HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 在通往更强大的AI路上,MoE已成为科技巨头另一个首选路径。 只要Scal ...
大模型训练,一半时间在摸鱼?
虎嗅APP· 2025-06-03 17:58
华为MoE架构优化技术 核心观点 - 华为提出MoGE架构优化方案,克服传统MoE模型负载不均衡及效率瓶颈问题,实现降本增效并便于训练部署 [1] - 公司通过Adaptive Pipe通信掩盖框架和EDPB全局负载均衡技术,显著提升MoE模型训练效率,在Pangu Ultra MoE 718B模型8K序列训练中实现72.6%的吞吐提升 [24][25] 技术方案细节 MoE训练效率挑战 - 专家并行(EP)导致计算单元空闲等待通信,模型规模较大时All-to-All通信造成50%以上训练时间浪费 [4][5] - 负载不均现象突出:热专家调用频率达冷专家数倍,不同模型层计算量差异明显 [5][6] DeployMind仿真平台 - AutoDeploy仿真平台通过三维建模和昇腾硬件映射,1小时内完成百万次训练场景模拟,并行策略选择精度达90% [9] - 针对Pangu Ultra MoE 718B模型,自动生成TP8/PP16/VPP2/EP32最优并行方案 [9] Adaptive Pipe通信优化 - 层次化All-to-All通信将跨机器传输数据块拷贝量减少50%,机内高速通道利用率提升1倍 [11] - 虚拟流水线并行技术使内存占用减半,实现98%以上EP通信掩盖率 [12][13] EDPB负载均衡 - 专家预测动态迁移技术通过多目标优化实现专家智能调度,包含预测先行/双层优化/智能触发三重机制 [18] - 数据重排和虚拟流水线层间均衡技术分别解决Attention计算和Stage间等待问题 [20][21] - 在基础优化上额外带来25.5%吞吐提升 [16][25] 行业技术演进 - MoE模型从加拿大理论雏形到硅谷工程突破,现由中国企业主导架构创新,华为MoGE架构体现"多快好省"技术路线 [1] - 昇腾生态通过系列技术披露推动开放协作,加速大模型本土化发展 [1][31]