Workflow
模型训练
icon
搜索文档
大模型训练,一半时间在摸鱼?
虎嗅APP· 2025-06-03 17:58
华为MoE架构优化技术 核心观点 - 华为提出MoGE架构优化方案,克服传统MoE模型负载不均衡及效率瓶颈问题,实现降本增效并便于训练部署 [1] - 公司通过Adaptive Pipe通信掩盖框架和EDPB全局负载均衡技术,显著提升MoE模型训练效率,在Pangu Ultra MoE 718B模型8K序列训练中实现72.6%的吞吐提升 [24][25] 技术方案细节 MoE训练效率挑战 - 专家并行(EP)导致计算单元空闲等待通信,模型规模较大时All-to-All通信造成50%以上训练时间浪费 [4][5] - 负载不均现象突出:热专家调用频率达冷专家数倍,不同模型层计算量差异明显 [5][6] DeployMind仿真平台 - AutoDeploy仿真平台通过三维建模和昇腾硬件映射,1小时内完成百万次训练场景模拟,并行策略选择精度达90% [9] - 针对Pangu Ultra MoE 718B模型,自动生成TP8/PP16/VPP2/EP32最优并行方案 [9] Adaptive Pipe通信优化 - 层次化All-to-All通信将跨机器传输数据块拷贝量减少50%,机内高速通道利用率提升1倍 [11] - 虚拟流水线并行技术使内存占用减半,实现98%以上EP通信掩盖率 [12][13] EDPB负载均衡 - 专家预测动态迁移技术通过多目标优化实现专家智能调度,包含预测先行/双层优化/智能触发三重机制 [18] - 数据重排和虚拟流水线层间均衡技术分别解决Attention计算和Stage间等待问题 [20][21] - 在基础优化上额外带来25.5%吞吐提升 [16][25] 行业技术演进 - MoE模型从加拿大理论雏形到硅谷工程突破,现由中国企业主导架构创新,华为MoGE架构体现"多快好省"技术路线 [1] - 昇腾生态通过系列技术披露推动开放协作,加速大模型本土化发展 [1][31]
不用GPU,大模型每2秒吃透一道高数大题!这就是华为的实力
雷峰网· 2025-05-30 17:48
华为昇腾与Pangu Ultra MoE技术创新 - 公司通过"昇腾+Pangu Ultra MoE"组合实现国产算力与模型全流程自主可控训练闭环,集群训练系统性能达行业领先水平[4] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%,后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[5] - 首次披露高效打通大稀疏比MoE强化学习后训练框架的关键技术,推动RL后训练进入超节点集群时代[6][7] MoE模型训练技术痛点与解决方案 - 当前MoE训练存在六大挑战:并行策略配置困难、All-to-All通信瓶颈、系统负载不均、算子调度开销大、训练流程管理复杂、大规模扩展受限[10][11] - 公司提出三阶段解决方案: - 提升训练集群利用率:通过智能并行优化、分层All-to-All通信去冗余、EDP全局负载均衡策略,将专家并行通信开销降至<2%[14][18][19] - 释放昇腾单节点算力:采用昇腾亲和算子加速、Host-Device协同下发优化、Selective R/S内存手术方案,实现MBS翻倍和70%激活值内存节省[22][25][27] - RL后训练创新:RL Fusion训推共卡技术支持多维并行策略动态切换,准异步机制StaleSync使训练吞吐提升50%[28][30] Pangu Ultra MoE模型性能突破 - 模型架构:7180亿参数,61层Transformer(3稠密层+58 MoE层),256路由专家+1共享专家,隐层维度7680[35] - 预训练性能:6K-10K卡昇腾800T A2集群实现8K序列长度下41% MFU,预计CloudMatrix 384超节点可支撑MFU>50%[35] - 后训练性能:CloudMatrix 384超节点实现35K Tokens/s吞吐,支持4K卡集群扩展,等效每2秒完成高数大题级推理任务[36] 技术架构创新细节 - 并行策略:采用16路流水线并行+8路张量并行+32路专家并行+2路虚拟流水线并行的混合架构[15] - 通信优化:分层专家并行通信结合虚拟流水线并行掩盖策略,实现计算通信深度融合[18] - 内存管理:构建自适应内存优化框架,支持模块级到张量级的细粒度内存调配[26] - 训推协同:支持分离部署/训推共卡/全共卡三种模式,秒级完成状态转换[28][33]
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
华尔街见闻· 2025-05-30 17:38
现在,请大家一起 数一下"1"、"2" 。 OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经吃透如何解一道 高等数学大题 了! 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通 过 " 昇腾+Pan gu Ultra MoE" 这套 组合拳解锁的效果—— 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行 业领先水平。 有多领先?来看一组数据: 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 值得一提的是,华为还 首次 把背后的一大秘籍给亮了出来。 具体来说,华为在这次发布的 技术报告 中,披露了在昇腾CloudMatrix 384超节点上,高效打通 大稀疏比MoE强化学习后训练框架的关键技术。 此举可以说是让以强化学习(RL)为核心机制的后训练,进入到了超节点集群时代。 不用GPU的"炼"准万亿大模型方法 在深入华为Pangu Ultra MoE训练系统全流程之前,老规矩,我们还是先来了解一下此前的技术 痛点。 整体 ...
华为AI实力!不用GPU,大模型每2秒吃透一道高数大题!
第一财经· 2025-05-30 17:32
现在,请大家一起 数一下"1"、"2" 。 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通过 "昇腾+Pangu Ultra MoE" 这套组合拳解锁的效果—— OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经 吃透 如何解一道 高等数学大题 了! 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行业领先 水平。 有多领先?来看一组数据: · 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% · 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 不用GPU的"炼"准万亿大模型方法 在深入华为Pangu Ultra MoE训练系统全流程之前,老规矩,我们还是先来了解一下此前的技术痛点。 整体来看,在当前的MoE预训练和强化学习后训练过程中所存在的挑战可以归结为六点: · 并行策略配置困难 :面对数据并行、张量并行、专家并行、流水线并行和序列并行等多种策略的组合 选择,加上稀疏激活导致的负载不平衡因素,很难通过人工经验找到最优的并行配置方案。 · All-to-All通信 ...
华为揭秘:国产昇腾训出世界一流大模型
观察者网· 2025-05-30 16:35
在训练方法上,华为团队首次披露在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习 (RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。同时,在5月初发布的预训练系统 加速技术基础上,在不到一个月的时间内,华为团队又完成了一轮迭代升级,包括:适配昇腾硬件的自 适应流水掩盖策略,进一步优化算子执行序,进一步降低Host-Bound以及提升EP通信的掩盖;自适应 管理内存优化策略的开发;数据重排实现DP间Attention负载均衡;以及昇腾亲和的算子优化,这些技 术实现万卡集群预训练MFU由30%大幅提升至41%。 此外,近期发布的盘古Pro MoE大模型,在参数量仅为720亿,激活160亿参数量的情况下,通过动态激 活专家网络的创新设计,实现了以小打大的优异性能,甚至可以媲美千亿级模型的性能表现。在业界权 威大模型榜单SuperCLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第 一。 华为盘古Ultra MoE和盘古Pro MoE系列模型的发布,证明华为不仅完成了国产算力+国产模型的全流程 自主可控的训练实践,同时在集群训练系统的性能上也实现了业界 ...
中石化与石化盈科申请针对设定图案的关键信息提取模型训练方法及相关产品专利,完成设定图案提取模型的训练
搜狐财经· 2025-05-30 11:42
天眼查资料显示,中国石油化工股份有限公司,成立于2000年,位于北京市,是一家以从事石油、煤炭 及其他燃料加工业为主的企业。企业注册资本12173968.9893万人民币。通过天眼查大数据分析,中国 石油化工股份有限公司共对外投资了254家企业,参与招投标项目5000次,财产线索方面有商标信息45 条,专利信息5000条,此外企业还拥有行政许可39个。 石化盈科信息技术有限责任公司,成立于2002年,位于北京市,是一家以从事住宿业为主的企业。企业 注册资本50000万人民币。通过天眼查大数据分析,石化盈科信息技术有限责任公司共对外投资了8家企 业,参与招投标项目2070次,财产线索方面有商标信息113条,专利信息440条,此外企业还拥有行政许 可14个。 来源:金融界 金融界2025年5月30日消息,国家知识产权局信息显示,中国石油化工股份有限公司;石化盈科信息技术 有限责任公司申请一项名为"针对设定图案的关键信息提取模型训练方法及相关产品"的专利,公开号 CN120071375A,申请日期为2025年02月。 专利摘要显示,本申请提供了一种针对设定图案的关键信息提取模型训练方法及相关产品,其中,所述 方法包 ...
Pangu Ultra准万亿MoE模型:业界一流,源自昇腾原生的长稳训练
第一财经· 2025-05-29 18:50
Pangu Ultra MoE是一个全流程在昇腾NPU上训练的准万亿MoE模型。最近华为盘古团队发布了Pangu Ultra MoE模型架构和训练方法的技术报告[1],进一步披露了 这个模型的细节。 训 练 超大规模和极高稀疏性的 MoE 模型 极具挑战,训练过程中的稳定性往往难以保障。针对这一难题,盘古团队在模型架构和训练方法上进行了创新性设计, 成功地在昇腾 NPU 上实现了准万亿 MoE 模型的全流程训练。 盘古团队提出 Depth-Scaled Sandwich-Norm(DSSN)稳定架构 和 TinyInit 小初始化 的方法,在昇腾 NPU 上实现了 10+ T tokens 数据的长期稳定训练。此外,他们 还提出了 EP group loss 负载优化 方法,这一设计不仅保证了各个专家之间能保持较好的负载均衡,也提升了专家的领域特化能力。同时,Pangu Ultra MoE 使用了 业界先进的 MLA 和 MTP 架构,在训练时使用了 Dropless 训练策略。 破解准万亿 MoE 模型性能瓶颈 打造芯片协同的先进架构 近期,盘古团队在 MoE 模型训练领域再进一步,重磅推出参数规模高达 7 ...
训练大模型,终于可以“既要又要还要”了
虎嗅APP· 2025-05-29 18:34
HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.7 :模型训练 Pangu Ultra MoE是一个全流程在昇腾NPU上训练的准万亿MoE模型 ...
广州南沙全力构建人工智能产业新高地
中国证券报· 2025-05-29 04:35
湾区人工智能产业创新联盟成立 - "湾区人工智能产业创新联盟"由香港科技大学(广州)与华为联合港澳及国际知名机构发起,整合国际、港澳及内地科研资源,旨在推动南沙成为粤港澳大湾区人工智能创新引领地、全国AI+产业发展风向标、世界人工智能人才集聚区 [1] - 联盟聚焦三大核心任务:在大模型训练、具身智能等关键技术领域突破,推动形成千亿级产业集群,建设公共算力平台及全链条产业服务体系 [2] - 南沙区发布专项扶持政策,对算力、数据、算法三大要素提供最高1000万元资金支持,涵盖算力补贴、数据交易奖励及大模型研发 [2] 南沙人工智能产业发展现状 - 2024年南沙人工智能相关产业规模约100亿元,同比增长12%,集聚云从科技、小马智行、奥飞数据等100余家企业,覆盖芯片、算法、自然语言处理等领域 [2] - 形成环港科大(广州)创新区和香江国际科创中心两大产业聚集区,其中小马智行自动驾驶出租车业务2025年Q1收入达1230万元,同比增长200% [2][3] - 南沙港四期全自动化码头采用北斗导航+AI+无人驾驶技术,2024年Q1集装箱吞吐量同比增长41.42%,智能导引车定位误差不超过3厘米 [4][5] 企业动态与全球化布局 - 小马智行与优步达成全球合作,2025年下半年接入其平台,并计划拓展中东市场,与迪拜道路交通管理局合作落地无人驾驶出租车服务 [3] - 云从科技以"AI智能体+行业大模型"为核心战略,覆盖智慧治理、金融等垂直领域,构建平台化通用模型与行业专用模型双引擎 [4] 政策与产业融合 - 广东省推出《推动人工智能与机器人产业创新发展若干政策措施》,实施"人工智能+"行动,在教育、医疗等领域拓展应用 [3] - 南沙推动AI与实体经济融合,形成全自动化码头等标杆项目,智能引导车实现多源融合定位技术提升效率 [4][5]
湾区人工智能产业创新联盟成立
中国经济网· 2025-05-27 11:32
广东省科技厅二级巡视员黄江康在致辞中强调,联盟的成立是落实国家《新一代人工智能发展规划》的 重要举措,更是推动粤港澳大湾区建设"具有全球影响力的国际科技创新中心"的关键一步。 广州市委常委、南沙区委书记刘炜表示,南沙将聚焦平台建设、开放共享、场景应用与生态共赢,始终 以"创业者"的姿态、"合伙人"的诚意、"可预期"的环境,与联盟企业同心并肩、向新而行,带动更多产 业资源、优质项目落地南沙。 会上,多项人工智能项目集中签约。华为与香港科技大学(广州)启动"科教创新孵化中心"合作项目,产 教融合与科教融汇双向驱动;同时,华为与中铁隧道局合作规划"隧智汇"隧道工程行业大模型体系架 构、搭建安全可控的大数据平台底座,同步深化数字化人才共育,推动隧道工程全流程数智化转型。 5月26日,由广东省科学技术厅、广州市南沙区政府指导,香港科技大学(广州)、广州市南沙区科学技 术局联合主办的"湾区人工智能产业创新联盟成立大会"在广州南沙举行。活动汇聚政府、高校企业及国 际专家代表400余人,通过战略签约、政策发布、智库共建、专家座谈等系列活动,推动粤港澳大湾区 人工智能产业协同创新。 大会现场,由香港科技大学(广州)与华为联合港 ...