Workflow
并行策略
icon
搜索文档
专家一半时间在摸鱼?Adaptive Pipe & EDPB让昇腾MoE训练效率提升70%
雷峰网· 2025-06-03 15:17
MoE模型训练效率挑战 - 混合专家(MoE)模型通过动态路由机制分配token给不同专家网络,实现参数规模化扩展和复杂任务处理优势[2] - 分布式训练中存在两大效率瓶颈:1)专家并行引入计算与通信等待,导致50%以上训练时间浪费在空闲等待[3][4];2)负载不均导致热专家过载而冷专家闲置[4] - 问题类比为城市交通拥堵:1)人车混行阻塞(计算等待通信);2)车道分配僵化(静态专家分配)[4] AutoDeploy仿真平台 - 基于昇腾硬件的数字孪生平台,通过三维建模和高精度硬件映射,1小时内模拟百万次训练场景,实现90%精度的最优并行策略自动选择[8] - 针对Pangu Ultra MoE 718B模型,自动求解出TP8/PP16/VPP2/EP32并行方案,平衡计算/通信/内存[8] Adaptive Pipe通信优化 - 采用层次化All-to-All通信:分机器间数据收集和机器内高速交换两步,相比传统All-to-All加速1倍[10] - 自适应细粒度调度将流水线并行内存占用减半,实现98%以上EP通信掩盖,计算几乎不受通信等待束缚[11] EDPB负载均衡技术 - 专家预测动态迁移(E):通过多目标优化实现专家跨设备智能流动,具备预测先行/双层优化/智能触发三大特性[17] - 数据重排(D)和虚拟流水线均衡(P)分别解决Attention计算不均和混合结构层间等待问题[19] - 整体在最优并行基础上带来25.5%吞吐提升[14] 系统综合收益 - 在Pangu Ultra MoE 718B模型8K序列训练中,Adaptive Pipe单独提升37.5%,EDPB再提升25.5%,端到端总吞吐提升达72.6%[22][23] - 方案类比为智慧交通系统:通信掩盖相当于行人地下通道,动态迁移相当于智能可变车道[22]
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
华尔街见闻· 2025-05-30 17:38
现在,请大家一起 数一下"1"、"2" 。 OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经吃透如何解一道 高等数学大题 了! 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通 过 " 昇腾+Pan gu Ultra MoE" 这套 组合拳解锁的效果—— 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行 业领先水平。 有多领先?来看一组数据: 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 值得一提的是,华为还 首次 把背后的一大秘籍给亮了出来。 具体来说,华为在这次发布的 技术报告 中,披露了在昇腾CloudMatrix 384超节点上,高效打通 大稀疏比MoE强化学习后训练框架的关键技术。 此举可以说是让以强化学习(RL)为核心机制的后训练,进入到了超节点集群时代。 不用GPU的"炼"准万亿大模型方法 在深入华为Pangu Ultra MoE训练系统全流程之前,老规矩,我们还是先来了解一下此前的技术 痛点。 整体 ...
大模型推理,不再是“一根筋”
虎嗅APP· 2025-05-22 19:41
HUAWEI X HUXIU 没有人不在期待大模型能够成为下一个电动车,作为代表中国的新兴产业,在世界范围内掀 起狂澜。 然而主流的MoE架构大模型,却苦于其结构上的"先天不足":巨大的硬件成本与多重拖累效 率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。 作为智能基础设施提供商,华为在这场战役中另辟蹊径,利用其在数学算法和工程领域的深 厚积累,为DeepSeek显著提升了效率及用户体验。 山就在那里,但中国企业找到了不一样的登顶之路。 近期,虎嗅将打造《华为技术披露集》系列内容,全面揭秘超大规模MoE模型推理部署技 术,通过一连串的技术报告,首次全面披露技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.4 :通信优化 01 大模型的推理, 就只是算力吗? 大语言模型(Large Language Models, LLMs) 自从其问世以来,便迅速成为全球科技领域乃至 整个社会的焦点。 根据Scaling law,大语言模型的能力与其参数量的对数正相关,因此大语言模型的参数 ...
昇腾杀手锏FlashComm,让模型推理单车道变多车道
雷峰网· 2025-05-22 19:29
" MoE模型推理面临的3大通信难题,被通信尖子生华为逐一突 破,未来将进一步优化。 " 作者丨李希 大语言模型 (Large Language Models, LLMs) 自从其问世以来,便迅速成为全球科技领域乃至整个社会 的焦点。根据 Scaling law ,大语言模型的能力与其参数量的对数正相关,因此大语言模型的参数规模也 在指数级增长。随之而来的,是大语言模型部署形态的变化,从神经网络时代的单卡部署,到稠密模型时 代的多卡 / 单节点部署,再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家( Mixture of Experts, MoE )模型,它甚至会采用数百卡组成的集群和超节点来部署。 而在这基于集群的大模型推理中,集合通信操作就像是一群工人协作盖房子时传递材料和信息的方式,能 让多个计算节点高效配合完成任务。有一些常用集合通信操作,比如全量规约(A ll Reduce)可以想象 成一群工人各自收集了不同区域的建筑材料数据,全量规约就是把所有工人手里的数据汇总到一个地方, 进行求和、求平均值等计算。 大模型的推理,就只是算力吗? 在大模型里,多个计算节点可能各自计算了一部分参 ...
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 12:13
机器之心发布 机器之心编辑部 在今年 2 月的 DeepSeek 开源周中,大模型推理过程中并行策略和通信效率的深度优化成为重点之一。 近日, 华为数学家出手,祭出 FlashComm,三箭齐发,解决大模型推理通算难题 : 随着大语言模型(Large Language Models, LLMs)规模的指数级扩张,其部署形态也随之变化,显卡配置朝着规模化、集约化演进。从神经网络时代的单卡部署, 到稠密模型时代的多卡 / 单节点部署,再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家(Mixture of Experts, MoE)模型,大语言模型甚至会采用数百卡 组成的集群和超节点来部署。 可以说,模型推理早已不是「单兵作战」,而是一场高协同的「群体作战」。而在这基于集群的大模型推理中, 集合通信操作就像是一群工人协作盖房子时传递 材料和信息的方式,能让多个计算节点高效配合完成任务 。 有一些常用集合通信操作,比如 全量规约(AllReduce) 可以想象成一群工人各自收集了不同区域的建筑材料数据,全量规约就是把所有工人手里的数据汇总到 一个地方,进行求和、求平均值等计算。在大模型里,多个计算 ...
国轩高科:固态电池“双线”并行
中国汽车报网· 2025-05-20 15:18
5月16日至17日,国轩高科举办2025全球科技大会。本次大会上,国轩高科集中发布了金石全固态电池、续航达1000公里的G垣准固态电池、可 连续使用12年的G行重卡标准箱等六款电池新品,展现了国轩高科在各个领域的深度布局。 ■ 全固态与准固态电池双突破,引领未来技术路线 2024年国轩高科首次发布金石全固态电池,2025年实现质的飞跃。据国轩高科全固态电池研发负责人潘瑞军介绍:相较2024年,金石电池单体容量提升 150%,预紧力下降90%,顺利通过针刺、热箱、外短、过充、挤压等安全测试,综合性能全方位提升。此外,国轩高科首条全固态实验线正式贯通,设计 产能达0.2GWh,实现100%核心设备国产化率,100%线体自主开发,良品率达90%,产品已开展装车测试。 除了金石全固态电池,国轩高科此次还首次发布了G垣准固态电池,以300Wh/kg的能量密度,将纯电轿车的续航里程推至1000公里。国轩高科首席科学 家朱星宝在发布仪式上透露,国轩高科已规划建设12GWh准固态电池产线,"搭载G垣准固态电池的'001'号样车总里程已经超过一万公里 "。 全固态电池和准固态电池的同台亮相,国轩高科在布局一盘怎样的棋局?朱星宝 ...