Workflow
昇腾
icon
搜索文档
昇腾+鲲鹏联手上大招!华为爆改MoE训练,吞吐再飙升20%,内存省70%
华尔街见闻· 2025-06-04 19:01
华为MoE训练系统技术突破 - 公司推出MoE训练算子和内存优化新方案,实现三大核心算子全面提速,系统吞吐提升20%,Selective R/S内存节省70% [1] - MoE架构凭借独特设计成为突破大规模模型训练算力瓶颈的关键路径,支持千亿至万亿参数规模 [3][11] - 通过昇腾与鲲鹏算力深度协同,从单节点视角优化NPU和CPU内部算子计算、下发及内存使用,实现技术突破并引领行业风向 [4][5][15] MoE训练效率挑战 - 单节点训练面临两大核心挑战:算子计算效率低导致Cube利用率不足,专家路由机制引发频繁算子下发中断 [7][8][9] - NPU内存资源紧张问题突出,大模型参数和前向传播激活值导致内存溢出风险,成为大规模训练永恒主题 [11][12][13][14] 昇腾算子计算加速方案 - 针对占计算耗时75%的FlashAttention、MatMul、Vector三大核心算子,提出"瘦身术"、"均衡术"、"搬运术"优化策略 [16][17] - FlashAttention优化计算顺序和流水排布,支持非对齐计算,前/反向性能提升50%/30% [19][20][21][24] - MatMul通过双级数据流水优化和矩阵子块斜向分配,Cube利用率提升10% [25][26][28] - Vector算子融合小算子减少数据搬运,性能提升3倍以上 [30][31][32] 昇腾鲲鹏协同优化 - Host-Device协同实现算子下发"零等待"(free时间<2%),训练吞吐再提升4%,累计加速达19.6% [33][42] - 等效计算同步消除和重排下发序优化使单次Host-Bound从2.1ms降至0.6ms [34][35][38] - 采用每NPU绑24核的粗粒度绑核方式,完全消除系统型持续Host-Bound [39][41] 内存优化技术 - Selective R/S技术实现多维度内存解剖,节省70%激活值内存 [33][43] - 建立包含细粒度重计算和Swap策略的"显微手术器械库",支持MLA、RmsNorm等模块优化 [45][46][48] - 创新内存管理机制,通过贪心算法和Swap带宽分析确定最优策略组合 [51][52] 行业影响 - 方案为Pangu Ultra MoE 718B模型训练提供高效低成本解决方案,扫清大规模训练障碍 [18][42][43][53] - 技术突破展现公司在AI算力领域深厚积累,为行业提供参考路径 [54]
不用GPU,大模型每2秒吃透一道高数大题!这就是华为的实力
雷峰网· 2025-05-30 17:48
华为昇腾与Pangu Ultra MoE技术创新 - 公司通过"昇腾+Pangu Ultra MoE"组合实现国产算力与模型全流程自主可控训练闭环,集群训练系统性能达行业领先水平[4] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%,后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[5] - 首次披露高效打通大稀疏比MoE强化学习后训练框架的关键技术,推动RL后训练进入超节点集群时代[6][7] MoE模型训练技术痛点与解决方案 - 当前MoE训练存在六大挑战:并行策略配置困难、All-to-All通信瓶颈、系统负载不均、算子调度开销大、训练流程管理复杂、大规模扩展受限[10][11] - 公司提出三阶段解决方案: - 提升训练集群利用率:通过智能并行优化、分层All-to-All通信去冗余、EDP全局负载均衡策略,将专家并行通信开销降至<2%[14][18][19] - 释放昇腾单节点算力:采用昇腾亲和算子加速、Host-Device协同下发优化、Selective R/S内存手术方案,实现MBS翻倍和70%激活值内存节省[22][25][27] - RL后训练创新:RL Fusion训推共卡技术支持多维并行策略动态切换,准异步机制StaleSync使训练吞吐提升50%[28][30] Pangu Ultra MoE模型性能突破 - 模型架构:7180亿参数,61层Transformer(3稠密层+58 MoE层),256路由专家+1共享专家,隐层维度7680[35] - 预训练性能:6K-10K卡昇腾800T A2集群实现8K序列长度下41% MFU,预计CloudMatrix 384超节点可支撑MFU>50%[35] - 后训练性能:CloudMatrix 384超节点实现35K Tokens/s吞吐,支持4K卡集群扩展,等效每2秒完成高数大题级推理任务[36] 技术架构创新细节 - 并行策略:采用16路流水线并行+8路张量并行+32路专家并行+2路虚拟流水线并行的混合架构[15] - 通信优化:分层专家并行通信结合虚拟流水线并行掩盖策略,实现计算通信深度融合[18] - 内存管理:构建自适应内存优化框架,支持模块级到张量级的细粒度内存调配[26] - 训推协同:支持分离部署/训推共卡/全共卡三种模式,秒级完成状态转换[28][33]
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
华尔街见闻· 2025-05-30 17:38
现在,请大家一起 数一下"1"、"2" 。 OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经吃透如何解一道 高等数学大题 了! 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通 过 " 昇腾+Pan gu Ultra MoE" 这套 组合拳解锁的效果—— 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行 业领先水平。 有多领先?来看一组数据: 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 值得一提的是,华为还 首次 把背后的一大秘籍给亮了出来。 具体来说,华为在这次发布的 技术报告 中,披露了在昇腾CloudMatrix 384超节点上,高效打通 大稀疏比MoE强化学习后训练框架的关键技术。 此举可以说是让以强化学习(RL)为核心机制的后训练,进入到了超节点集群时代。 不用GPU的"炼"准万亿大模型方法 在深入华为Pangu Ultra MoE训练系统全流程之前,老规矩,我们还是先来了解一下此前的技术 痛点。 整体 ...
并购重组迎来利好!股民又要学习新知识?——道达对话牛博士
每日经济新闻· 2025-05-18 19:12
市场走势分析 - 上证50指数创下去年11月下半月以来的新高,被视为市场"地基型"指数的突破,为其他指数未来走势树立榜样 [1] - 上证指数面临两大压力:2024年11月至12月的高点连线压力及今年3月的高点压力 [1] - 上证指数本轮修复性行情已持续25个交易日,达到常规反弹时间标准,下周走势关键:若突破3月高点则确认中期上行趋势,否则可能回调整固 [1][3] - 若市场回调,上证指数38.2%回撤位为3273点,与4月30日阶段低点3277点接近,形成重要支撑 [3] 板块表现与机会 - 微盘股全周上涨1.59%,表现突出;小盘股方向中证1000指数、国证2000指数反弹约20%,微盘股指数反弹33% [1][4] - 中小盘股和微盘股在回调中可能幅度更大 [5] - 航运概念板块指数突破创新高,后续或反复活跃 [10] - 低空经济、华为昇腾概念板块因即将举行的世界无人机大会和KADC鲲鹏昇腾开发者大会蕴藏机会 [9][10] - AI领域因英伟达CEO主题演讲、微软Build大会和谷歌I/O大会可能释放超预期进展 [10] 热点与操作策略 - 近期热点持续性差(军工、光伏、港口航运等题材轮动快),需严格把握节奏和纪律 [5][11] - 资金抱团现象显著,涨幅较大个股多为抱团标的 [6] - 短线操作建议快进快出,避免追高已发酵题材 [7][11] 政策与事件驱动 - 证监会修订《上市公司重大资产重组管理办法》,引入分期支付机制、简易审核程序等,提振市场信心并提升并购积极性 [8] - 深交所全球投资者大会将讨论活跃并购重组,历史数据显示并购重组题材股曾大幅上涨(如*ST双成涨6倍) [8] - 北交所加快推进服务创新型中小企业建设,北证50指数或迎突破机会 [9]
A股市场大势研判:指数低开低走,沪指失守3400点
东莞证券· 2025-05-16 07:30
报告核心观点 - 周四指数低开低走沪指失守3400点,市场赚钱效应一般量能有所回落但仍万亿以上,短期内市场或延续震荡态势,中长期维度坚定看好中国资产重估,建议关注有色金属、公用事业、交通运输、汽车、银行和通信等板块 [1][4][5] 市场表现 - 上证指数收盘3380.82点,跌0.68%;深证成指收盘10186.45点,跌1.62%;沪深300收盘3907.20点,跌0.91%;创业板收盘2043.25点,跌1.92%;科创50收盘1000.97点,跌1.26%;北证50收盘1415.47点,跌0.38% [2] 板块排名 - 申万行业表现前五的是美容护理(3.68%)、煤炭(0.42%)、公用事业(0.12%)、农林牧渔(0.11%)、银行( -0.12%);后五的是计算机( -2.97%)、通信( -2.45%)、电子( -2.12%)、传媒( -1.93%)、国防军工( -1.80%) [3] - 概念板块表现前五的是NMN概念(2.07%)、宠物经济(1.98%)、中韩自贸区(1.96%)、乳业(1.67%)、玉米(1.54%);后五的是DRG/DIP( -3.30%)、华为昇腾( -3.09%)、数字货币( -3.05%)、华为鲲鹏( -3.05%)、MLOps概念( -3.04%) [3] 后市展望 - 市场早盘震荡调整创业板指领跌,午后继续震荡下探尾盘加速下行,三大指数集体收跌,个股板块涨多跌少 [4] - 消息方面,证监会将出台深化科创板和创业板改革政策,推动提升中长期资金入市规模和比例;4月末我国社会融资规模存量同比增长8.7%,M2余额同比增长8%,前四个月人民币贷款增加10.06万亿元,社会融资规模增量16.34万亿元,4月企业新发放贷款平均利率约3.2%;商务部暂停部分美国实体相关清单措施90天,加强战略矿产出口管控 [4][5] - 市场自4月初回调后有所修复,市场情绪相对稳定,中美贸易争端缓和、政策落地有助于坚定投资者信心、稳住资本市场预期,但上方或有抛压 [5]
中韩自贸区概念涨1.96%,主力资金净流入这些股
证券时报网· 2025-05-15 18:17
中韩自贸区概念板块表现 - 截至5月15日收盘,中韩自贸区概念上涨1.96%,位居概念板块涨幅第4 [1] - 板块内8股上涨,连云港、新华锦、海程邦达涨停,朗姿股份、春雪食品、好当家涨幅居前,分别上涨3.94%、1.59%、1.28% [1] - 跌幅居前的有青岛金王、日照港、中创物流等,分别下跌5.46%、2.15%、2.13% [1] 概念板块涨跌幅排名 - NMN概念、合成生物、宠物经济涨幅居前,分别上涨2.07%、2.05%、1.98% [2] - 华为盘古、DRG/DIP、华为昇腾跌幅居前,分别下跌3.76%、3.30%、3.09% [2] - 中韩自贸区概念涨幅1.96%,排名第4 [2] 资金流动情况 - 中韩自贸区概念板块获主力资金净流出1.65亿元 [2] - 6股获主力资金净流入,海程邦达净流入3315.80万元居首,连云港、好当家、朗姿股份分别净流入2166.38万元、1407.33万元、803.40万元 [2] - 海程邦达、好当家、春雪食品主力资金净流入率居前,分别为36.04%、7.34%、3.32% [3] 个股资金流入榜 - 海程邦达今日涨跌幅9.98%,换手率2.84%,主力资金净流入3315.80万元 [3] - 连云港今日涨跌幅10.08%,换手率8.74%,主力资金净流入2166.38万元 [3] - 好当家今日涨跌幅1.28%,换手率5.56%,主力资金净流入1407.33万元 [3] - 朗姿股份今日涨跌幅3.94%,换手率10.49%,主力资金净流入803.40万元 [3] - 春雪食品今日涨跌幅1.59%,换手率3.65%,主力资金净流入231.57万元 [3] 个股资金流出榜 - 青岛金王今日涨跌幅-5.46%,换手率42.73%,主力资金净流出17227.76万元 [4] - 日照港今日涨跌幅-2.15%,换手率3.60%,主力资金净流出2914.59万元 [4] - 中创物流今日涨跌幅-2.13%,换手率12.22%,主力资金净流出1831.87万元 [4]
华为昇腾概念下跌3.09%,主力资金净流出59股
证券时报网· 2025-05-15 16:43
华为昇腾概念板块表现 - 截至5月15日收盘,华为昇腾概念板块下跌3.09%,位居概念板块跌幅榜前列 [1] - 板块内59只个股下跌,皖通科技跌停,平治信息、通达海、科蓝软件等跌幅居前 [1] - 仅有4只个股上涨,涨幅居前的有兴图新科(7.94%)、*ST智胜(4.99%)、启迪设计(4.19%) [1] 概念板块涨跌幅对比 - NMN概念(+2.07%)、合成生物(+2.05%)、宠物经济(+1.98%)位列涨幅榜前三 [2] - 华为盘古(-3.76%)、DRG/DIP(-3.30%)、华为昇腾(-3.09%)位列跌幅榜前三 [2] - 其他华为相关概念如华为鲲鹏(-3.05%)、华为欧拉(-3.02%)同样表现疲软 [2] 主力资金流动情况 - 华为昇腾概念板块主力资金净流出34.93亿元 [2] - 常山北明主力资金净流出4.39亿元居首,拓维信息(-3.86亿元)、润和软件(-3.27亿元)紧随其后 [2] - *ST智胜主力资金净流入2600.07万元,群兴玩具(1517.58万元)、开普云(1398.30万元)位列净流入前三 [2] 个股资金流出明细 - 科蓝软件主力资金净流出1.78亿元,换手率12.66% [2] - 首都在线主力资金净流出1.70亿元,换手率19.32% [2] - 创业慧康主力资金净流出1.11亿元,换手率5.92% [2] 个股资金流入亮点 - 航天宏图主力资金净流入1299.71万元,股价微跌0.67% [4] - 兴图新科主力资金净流入1232.27万元,股价大涨7.94% [4] - 启迪设计主力资金净流入779.84万元,股价上涨4.19% [4]
智谱AI概念下跌3.09%,主力资金净流出55股
证券时报网· 2025-05-15 16:43
智谱AI概念板块表现 - 截至5月15日收盘,智谱AI概念板块下跌3.09%,位居概念板块跌幅榜前列 [1] - 板块内55只个股下跌,6只上涨,涨幅居前的包括拓斯达(4.66%)、光云科技(2.65%)、盛通股份(0.97%) [1] - 跌幅居前的个股包括奥飞数据(-7.93%)、弘信电子(-7.24%)、平治信息(-7.65%) [1][3] 概念板块涨跌幅对比 - 涨幅居前的概念板块包括NMN概念(2.07%)、合成生物(2.05%)、宠物经济(1.98%) [2] - 跌幅居前的概念板块包括华为盘古(-3.76%)、DRG/DIP(-3.30%)、华为昇腾(-3.09%) [2] 资金流动情况 - 智谱AI概念板块主力资金净流出34.65亿元,55只个股净流出,12只净流出超亿元 [2] - 主力资金净流出居前的个股包括常山北明(-4.39亿元)、奥飞数据(-3.61亿元)、汉得信息(-2.29亿元) [2] - 主力资金净流入居前的个股包括光云科技(3643.48万元)、因赛集团(2538.63万元)、梦网科技(2221.39万元) [2][4] 个股表现及资金流向 - 拓斯达股价上涨4.66%,但主力资金净流出1.55亿元 [2] - 中科曙光下跌2.24%,主力资金净流出1.72亿元 [2] - 金山办公下跌2.84%,主力资金净流出1.21亿元 [2] - 神州数码下跌3.76%,主力资金净流出9204.51万元 [3] - 蓝色光标下跌3.39%,主力资金净流出9157.19万元 [3]
转基因概念涨1.23%,主力资金净流入6股
证券时报网· 2025-05-15 16:40
转基因概念板块表现 - 截至5月15日收盘,转基因概念上涨1.23%,位居概念板块涨幅第9 [1] - 板块内11股上涨,秋乐种业、神农种业、科前生物涨幅居前,分别上涨6.81%、3.50%、3.46% [1] - 跌幅居前的有托普云农、芭田股份、荃银高科等,分别下跌1.21%、1.05%、0.65% [1] 资金流动情况 - 转基因概念板块获主力资金净流入0.68亿元 [2] - 6股获主力资金净流入,神农种业净流入5681.73万元居首,金城医药、农发种业、隆平高科分别净流入4961.66万元、1539.14万元、366.08万元 [2] - 农发种业、金城医药、神农种业主力资金净流入率居前,分别为11.08%、6.54%、6.00% [3] 个股资金明细 - 万向德农、敦煌种业分别获主力资金净流入353.27万元、90.44万元 [3] - 登海种业、丰乐种业、科前生物主力资金净流出74.03万元、119.63万元、330.20万元 [3][4] - 托普云农、华邦健康、荃银高科、大北农主力资金净流出较大,分别为676.03万元、764.11万元、970.91万元、2324.20万元 [4]
这个板块逆市大涨!
第一财经· 2025-05-15 16:14
盘面上,美容护理、NMN概念、合成生物、宠物经济板块涨幅居前,乳业、种业板块表现活跃,华 为盘古、华为昇腾、数据确权板块走低。 2025.05. 15 本文字数:745,阅读时长大约2分钟 作者 | 一财资讯 5月15日,三大股指集体收跌,上证指数报收3380.82点,跌0.68%;深成指报收10186.45点,跌 1.62%;创业板指报收2043.25点,跌1.91%。 【资金流向】 主力资金全天净流入医药生物、交通运输、公用事业等板块,净流出计算机、电子、非银金融等板 块。 具体到个股来看,川宁生物、盛和资源、王子新材获净流入5.52亿元、3.67亿元、2.77亿元。 【机构观点】 具体来看,美容护理板块全天强势,截至收盘,芭薇股份30%涨停,青松股份、华业香料、洁雅股份 20%涨停。 宠物经济概念股涨幅居前,美农生物20%涨停,仙乐健康、回盛生物涨超10%。 软件开发板块领跌,恒锋信息、永信至诚、通达海、科蓝软件、创业慧康等不同程度下跌。 净流出方面,东方财富、拓维信息、立讯精密遭抛售10.16亿元、5.23亿元、5.18亿元。 中信建投: 随着整体市场回暖,市场对今年企业盈利的关注度在逐步提升,市场目 ...