Workflow
MoE模型
icon
搜索文档
华为,重大发布!
证券时报· 2025-06-20 18:40
盘古大模型5.5发布 - 盘古大模型5.5在自然语言处理、多模态等5大基础模型全面升级,加速行业智能化 [1] - 发布盘古医学、金融、政务、工业、汽车五个行业自然语言大模型,6月底正式上线 [1] - 过去一年已在30多个行业、500多个场景中落地,覆盖政务、金融、制造、医疗等关键领域 [1] 盘古Ultra MoE模型技术突破 - 推出参数规模达7180亿的盘古Ultra MoE模型,全流程在昇腾AI平台训练 [1] - 采用Depth-Scaled Sandwich-Norm架构和TinyInit小初始化方法,实现18TB数据长期稳定训练 [2] - 创新EP loss负载优化方法,提升专家负载均衡和领域特化能力 [2] - 使用MLA和MTP架构,结合Dropless训练策略,平衡模型效果与效率 [2] 训练方法升级与性能提升 - 在昇腾CloudMatrix 384超节点上打通大稀疏比MoE强化学习后训练框架 [3] - 预训练系统MFU从30%提升至41%,通过自适应流水掩盖、内存优化等关键技术 [3] - 盘古Pro MoE模型以720亿参数量实现媲美千亿级模型的性能,位列SuperCLUE榜单国内第一 [3] 昇腾平台全栈国产化意义 - 证明国产昇腾平台可高效训练国际顶尖水平的超大规模稀疏模型 [4] - 实现硬件到软件、训练到优化的全流程自主可控闭环 [4] 鸿蒙6操作系统生态进展 - 鸿蒙6首次亮相,带来更低时延和更开放AI能力 [4] - HMAF鸿蒙智能体框架赋能应用智能化升级 [4] - 生态加速发展,超30000个应用及元服务在开发中,覆盖20个行业 [5] - 注册开发者突破800万,面临百万级人才缺口 [5]
2025H2新型硬件展望:从科技树节点,看新型硬件
申万宏源证券· 2025-06-09 15:39
报告行业投资评级 未提及 报告的核心观点 采用“硬件Y - 软件X”轴预测新型硬件创新,串联不同时间科技创新进展与前景指引投资方向;2B市场关注光器件、硅光、GPU等高端化机会,2C市场关注车载、RoboVan、可穿戴等机会;架构创新和“物理化学生物AI”易被低估,带来国产科技硬件发展机会;长期机会与创新更重要,附录提供科技树和技术复杂度素材辅助理解[4]。 根据相关目录分别进行总结 基于“硬件Y - 软件X”轴的预测 - 2022H2展望呈现“硬件Y - 软件X”创新轴,展示不同软硬件组合及发展阶段[11] - 2024年底观察到新增ARM、AI眼镜等机会,行业和服务机器人有进展[13] - 2025H2展望在智联汽车、XR等领域有新变化,如增加RoboTaxi、生物 - 电子融合硬件等[16] - 2025H2创新轴对应的硬件机会包括AIPC、AI笔记本等,中长期机会更重要,还涉及算网、算力、材料等方面的发展及问题[18] 2B市场:光器件 + 硅光 + GPU + 高端化 光器件 - 过去算网受“Scaling Law”驱动,光通信量价齐升,不同系列产品对光模块用量有提升[24][26] - 现在AI“非典型”周期打破惯性,MoE架构是光通信需求高成长关键,结合算力多元化等因素带动光通信发展[27][32] - MoE下光器件通信特点与过去不同,带来内存访问和负载均衡增量,但也存在系统效率、通信等挑战[34][42] - 华为CloudMatrix384有MoE优化技术,英伟达也有类似趋势改变[48][51] 硅光 - 高速光通信下一节点是硅光,市场爆发临近,三场景共进以提高集成度、满足带宽增长和降低功耗[56][59] - 硅光产业爆发因VCSEL芯片带宽提升有技术瓶颈,其产业链与传统光模块产业链不同,技术难点是光电集成[61][64] - 中际旭创和光迅科技是硅光代表性企业,在硅光芯片研发和产品出货方面有进展[67][69] 半导体 - 半导体是AI基础,中国在半导体领域有进步,从全球代工和封测排名可见[70][74] - 中系Fab在全球高端市场追赶节点,如中芯国际等[76] - 国产KrF、ArF光刻机完成首台生产并进入推广应用阶段,有相应性能参数[78][81] GPU - 国产算力迈入千卡集群,GPU赛道有众多明星项目,不同厂商的GPU型号在工艺、算力等方面各有特点[84] 半导体趋势 - “DeepSeek时刻”架构关键,等效线宽在先进制程中多为等效概念,AI下晶体管密度有新变化[85][88] - 架构创新未必是单点提价,可解决性能翻倍的功耗和成本问题,如华为手机芯片案例[89][91] 2C市场:车载 + RoboVan + 可穿戴 + 生物电子互动设备 RoboVan - 存在技术外溢关系,涉及智能车、机器人、低空经济、深海科技等多个领域的产业复用[98][101] - 上下游格局包括芯片、算法、传感器等供应商,以及物流、配送等运营商,UE与ROI有吸引力,但存在一定风险[103][107] 车载芯片 - 2025年车载芯片高端化,智驾软硬件成熟,质价比提升,传统主机厂带动价格带下沉,NOA渗透率有提升空间[108][111] - 高阶芯片国产化、算法方案成熟、配置下放等因素推动发展,主机厂自研智驾芯片有进展[112][117] 激光雷达 - 2025年激光雷达有新发展,用于多个领域,物理AI和世界模型崛起使其成为智驾方案新选择[123][131] - 竞争格局逐渐明朗,“四巨头”格局显现[134] AR + AI眼镜 - 2025H2 - 2026年有变化,涉及3D传感、高刷新率、低延迟等方面,不同方案有优劣势[135][141] 新兴AI可穿戴 - 应重视BCI(脑机接口),有非侵入式与半侵入式创新成果[142][143] 一二级机会 未提及 附录:科技树、技术复杂度 未提及具体内容总结信息
爆改大模型训练,华为打出昇腾+鲲鹏组合拳
虎嗅APP· 2025-06-04 18:35
华为MoE架构技术突破 - 华为提出MoGE架构优化方案,克服传统MoE负载不均衡及效率瓶颈问题,实现降本增效并便于训练部署 [1] - 通过昇腾与鲲鹏算力协同,MoE训练吞吐提升20%,内存占用降低70% [3][19] - 在Pangu Ultra MoE 718B模型训练中,三大算子加速实现整体训练吞吐量提升15% [9] MoE训练效率提升技术方案 - 针对FlashAttention算子采用"瘦身术"优化,前/反向性能分别提升50%/30%,消除冗余计算并优化流水线衔接 [10][12] - 矩阵乘法算子通过"均衡术"实现Cube利用率提升10%,优化双级数据流水搬运 [13] - Vector算子采用"搬运术"性能提升3倍,减少数据反复搬运 [17] 昇腾鲲鹏协同优化 - 通过Host-Device协同实现算子下发"零等待"(free时间占比<2%),单次Host-Bound时间从2.1ms降至0.6ms [20][23][25] - Selective R/S内存优化技术节省70%激活值内存,包含细粒度重计算和Swap策略 [26][28] - 自适应内存管理机制基于Memory-Runtime性价比优化策略组合 [31] 行业影响与意义 - 华为技术方案为大规模MoE模型训练扫清障碍,提供高效低成本解决方案 [34] - 昇腾+鲲鹏深度协同展现公司在AI算力领域的技术积累,为行业提供参考路径 [34] - 中国科技企业在MoE架构优化方面展现后发优势,推动AI技术普适化发展 [1]
大模型训练,一半时间在摸鱼?
虎嗅APP· 2025-06-03 17:58
华为MoE架构优化技术 核心观点 - 华为提出MoGE架构优化方案,克服传统MoE模型负载不均衡及效率瓶颈问题,实现降本增效并便于训练部署 [1] - 公司通过Adaptive Pipe通信掩盖框架和EDPB全局负载均衡技术,显著提升MoE模型训练效率,在Pangu Ultra MoE 718B模型8K序列训练中实现72.6%的吞吐提升 [24][25] 技术方案细节 MoE训练效率挑战 - 专家并行(EP)导致计算单元空闲等待通信,模型规模较大时All-to-All通信造成50%以上训练时间浪费 [4][5] - 负载不均现象突出:热专家调用频率达冷专家数倍,不同模型层计算量差异明显 [5][6] DeployMind仿真平台 - AutoDeploy仿真平台通过三维建模和昇腾硬件映射,1小时内完成百万次训练场景模拟,并行策略选择精度达90% [9] - 针对Pangu Ultra MoE 718B模型,自动生成TP8/PP16/VPP2/EP32最优并行方案 [9] Adaptive Pipe通信优化 - 层次化All-to-All通信将跨机器传输数据块拷贝量减少50%,机内高速通道利用率提升1倍 [11] - 虚拟流水线并行技术使内存占用减半,实现98%以上EP通信掩盖率 [12][13] EDPB负载均衡 - 专家预测动态迁移技术通过多目标优化实现专家智能调度,包含预测先行/双层优化/智能触发三重机制 [18] - 数据重排和虚拟流水线层间均衡技术分别解决Attention计算和Stage间等待问题 [20][21] - 在基础优化上额外带来25.5%吞吐提升 [16][25] 行业技术演进 - MoE模型从加拿大理论雏形到硅谷工程突破,现由中国企业主导架构创新,华为MoGE架构体现"多快好省"技术路线 [1] - 昇腾生态通过系列技术披露推动开放协作,加速大模型本土化发展 [1][31]
华为的准万亿大模型,是如何训练的?
虎嗅APP· 2025-05-30 18:18
华为MoE架构技术突破 - 华为提出MoGE架构优化方案,克服传统MoE负载不均衡及效率瓶颈问题,实现降本增效并便于训练部署[1] - 昇腾+Pangu Ultra MoE组合实现国产算力与模型全流程自主可控,预训练阶段万卡集群MFU达41%,后训练单超节点吞吐35K Tokens/s[2] - 公司首次披露昇腾CloudMatrix 384超节点上大稀疏比MoE强化学习后训练框架关键技术,推动RL后训练进入超节点集群时代[2] 当前MoE训练系统六大挑战 - 并行策略配置困难:多种并行策略组合与稀疏激活导致负载不平衡,难以人工优化[3] - All-to-All通信瓶颈:大规模token路由交换占用带宽,造成计算资源空闲等待[4] - 系统负载分布不均:注意力机制序列长度差异、专家激活频率不平衡等多层次不均衡[4] - 算子调度开销过大:动态路由引入高频小规模算子操作,NPU利用率显著降低[4] - 训练流程管理复杂:多模型实例与多任务场景增加资源分配难度[4] - 大规模扩展受限:参数重新映射机制与复杂数据通信制约部署规模[4] 训练集群利用率提升方案 - 智能并行优化:通过建模仿真框架自动确定最优部署配置,包括16路流水线并行、8路张量并行等[7] - Adaptive Pipe通信优化:分层All-to-All通信去冗余,专家并行通信开销降至<2%[10] - EDP全局负载均衡:专家负载预测+动态调节+注意力数据重排技术,解决多通信域负载不均[12] 昇腾单节点算力释放 - 训练算子加速:针对FlashAttention等关键算子优化,提升75%以上计算耗时算子性能[15] - Host-Device协同优化:分层消除同步型/系统性Host-Bound问题,MoE训练中Host-Bound占比<2%[16] - 内存精准管理:通用化重计算+Swap机制实现70%激活值内存节省,MBS翻倍仍稳定[17] RL后训练关键技术 - RL Fusion训推共卡技术:支持多并行策略动态切换,秒级完成状态转换,集群利用率翻倍[20] - 准异步机制StaleSync:容忍梯度陈旧性,系统吞吐提升50%[21] - 分布式数据队列DistQueue:实现多任务数据拆分与动态读取,缓解数据阻塞[21] Pangu Ultra MoE模型性能 - 7180亿参数规模,61层Transformer含58层MoE,隐层维度7680配备256路由专家[26] - 预训练阶段6K-10K卡集群MFU达41%,预计未来可扩展至MFU>50%[26] - RL后训练实现每超节点35K Tokens/s吞吐,4K卡集群等效2秒完成高数大题解析[27]
华为发布准万亿模型Pangu Ultra MoE模型架构和训练细节
快讯· 2025-05-30 15:33
华为盘古Ultra MoE模型发布 - 公司推出参数规模高达7180亿的全新模型盘古Ultra MoE [1] - 该模型为全流程在昇腾AI计算平台上训练的准万亿MoE模型 [1] - 公司同时发布模型架构和训练方法的技术报告 [1] - 技术报告披露众多细节体现昇腾在超大规模MoE训练性能上的跨越 [1] 技术突破 - 训练超大规模和极高稀疏性的MoE模型极具挑战 [1] - 训练过程中的稳定性往往难以保障 [1] - 盘古团队在模型架构和训练方法上进行了创新性设计 [1] - 成功在昇腾平台上实现准万亿MoE模型的全流程训练 [1]
Pangu Ultra准万亿MoE模型:业界一流,源自昇腾原生的长稳训练
第一财经· 2025-05-29 18:50
模型架构与训练方法 - 华为盘古团队发布Pangu Ultra MoE模型技术报告,披露准万亿MoE模型在昇腾NPU上的全流程训练细节[1] - 模型采用Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化方法,实现10+T tokens数据的长期稳定训练[1][8] - 提出EP group loss负载优化方法,保证专家负载均衡并提升领域特化能力,同时采用MLA和MTP先进架构及Dropless训练策略[1][3] 性能与规模 - 模型参数规模达718B,激活量39B,采用256个路由专家,每个token激活8个专家[5] - 预训练阶段在6k-10k张NPU上进行,具备128k长序列能力,后训练阶段移除负载均衡辅助损失以提升学习效率[3] - 在多个权威评测集上表现稳健,如C-Eval 90.8、MMLU 91.5、AIME2024 81.3等,部分指标领先竞品[6] 技术创新 - DSSN+TinyInit方案使梯度突刺率从1.54%降至0.76%,相对下降51%,显著提升训练稳定性[8][11] - EP-Group负载均衡loss相比Micro-batch方案平均提升1.5个点,同时促进专家特化[15][16] - MTP头延迟扩展策略使投机接受长度提升38%,双头扩增效果与从头训练相当[21][23] 训练优化 - 隐藏层设为7680维,精准匹配昇腾芯片16×16 MatMul单元,充分发挥计算潜力[5] - 采用61层Transformer结构,优化流水线并行调度,减少pipeline气泡[5] - 专家数量按2⁸=256设置,提升All-to-All通信效率,加速分布式训练[5] 强化学习系统 - 设计迭代难例挖掘机制,从数据池筛选通过率(0,1)的数据提升RL训练效率[25][27] - 多能力项奖励系统结合规则奖励与LLM-as-a-judge评分,确保数学、代码等能力协同提升[27] - 参考GRPO算法但优化了超大模型场景下的训练浪费和能力不匹配问题[25]
从“积木堆叠”到“有机生命体”:昇腾超节点重新定义AI算力架构
环球网· 2025-05-26 18:06
大模型算力需求与挑战 - 大模型参数量增长推动算力需求进入新纪元,传统集群架构受通信效率制约成为训练效率瓶颈 [1] - 传统集群架构面临三大核心痛点:通信瓶颈恶化(MoE模型节点间通信量几何级增长,400G网络时延超2ms)、资源分配粗放(静态划分导致效率下降30%以上)、可靠性脆弱(万卡集群每周故障2-3次,单次损失超百万美元)[1][2] - 行业需求从"算力堆砌"转向"效率革命",需构建"以数据流动为核心"的新架构 [1][2] 昇腾超节点技术架构创新 - 硬件互联突破:高速总线连接多颗NPU,跨节点通信带宽提升15倍,时延从2ms降至0.2ms [3] - 全局内存统一编址:虚拟化技术实现跨节点直接内存访问,消除参数同步的传统流程,提升小包数据传输效率 [5] - 智能资源调度:动态切分MoE模型任务(如288专家分配至独立NPU),计算与通信耗时比从1:1优化至3:1 [5] - 可靠性革新:七平面链路设计+秒级故障切换+算子级重传,无故障时长从几小时提升至几天,恢复时间缩短至15分钟 [5][6] 昇腾超节点性能与产业落地 - 构建384卡高速总线互联体系,训练性能达传统节点3倍,深度适配MoE模型释放潜力 [8] - MindIE Motor推理服务单卡吞吐达传统服务器4倍,超节点+大EP方案性能为业界4倍 [8] - 推出多模态理解SDK和昇腾推理微服务MIS,简化应用部署流程 [8] - 2022年起与DeepSeek等企业联合实验室优化架构,形成"需求驱动创新"闭环 [8] 行业技术哲学与趋势 - 架构创新成为后摩尔定律时代核心,需攻克高速互联、动态调度等世界级难题 [9] - 昇腾超节点技术突破使算力不再成为创新桎梏,推动AI产业进入"万类霜天竞自由"阶段 [9]
昇腾杀手锏FlashComm,让模型推理单车道变多车道
雷峰网· 2025-05-22 19:29
大模型推理中的通信挑战与华为解决方案 核心观点 - 华为通过创新通信技术突破MoE模型推理中的三大通信难题,显著提升大模型推理效率[1][19] 大模型推理的通信基础 - 大语言模型参数规模呈指数级增长,部署形态从单卡演进至数百卡集群,MoE模型成为新趋势[2] - 集合通信操作(如AllReduce、All-Gather)是大模型多节点协作的关键,支持张量并行(TP)、数据并行(DP)、专家并行(EP)等策略[4][5] MoE模型的通信痛点 - MoE模型参数突破千亿级别,专家数量增长导致通信带宽需求呈平方级增长,引发网络拥塞[6] - 传统AllReduce在TP方案中跨节点带宽受限,端到端推理时延占比过高[7] - 计算与通信强耦合导致硬件资源利用率低下,流程串行化加剧性能瓶颈[6][11] 华为三大技术创新 1 多流并行技术 - 将MoE计算流程拆解为激活通信、门控决策等模块,通过昇腾多流引擎实现三股计算流并行[12] - 采用TP8分片与流水线技术,多卡并行时释放2GB内存,DeepSeek模型Prefill阶段提速超10%,Decode吞吐提升25%-30%[12] 2 AllReduce革新 - 将AllReduce拆解为ReduceScatter+AllGather,插入INT8动态量化技术使通信量降35%[14] - 关键计算量减少至1/8,DeepSeek Prefill性能提升22-26%,Llama3.1-70B Decode性能提升14%[14] 3 以存换传技术 - 通过矩阵乘法并行维度调整,将三维张量压缩为二维矩阵,注意力机制阶段通信量降86%[15] - 结合INT8量化使DeepSeek整体推理速度提升33%[15] 技术体系与未来方向 - FlashComm系列技术通过通信算子重构、数据维度优化和计算流程并行化实现端到端加速[19] - 未来将聚焦超大规模EP下的权重自动预取、模型自动多流并行等方向[19] 行业影响 - 华为技术已应用于DeepSeek V3/R1等超大规模MoE模型,国产芯片推理性能达国际领先水平[21] - 昇腾平台实现MoE专家动态部署优化,系统吞吐提升10%[21]
十年前的手机都能跑,阿里掏出了最适合落地的小模型?
观察者网· 2025-05-12 18:01
通义Qwen3模型发布 - 阿里巴巴旗下通义平台推出新一代开源模型Qwen3系列,包含8款不同尺寸,其中6款为Dense模型(参数0.6B至32B),2款为MoE模型(参数30B和235B)[1] - 最小0.6B模型参数量仅6亿,远低于2019年GPT-2的15亿参数,可在10年前手机芯片上运行,4B/8B模型表现更优[1][9] - 阿里云CTO表示多尺寸设计旨在满足不同场景需求:手机端推荐4B,电脑/汽车端推荐8B,企业级偏好32B[1] 稠密模型技术特性 - Dense模型采用全连接架构,所有参数全局共享,相比MoE架构更适合低延迟场景如客服/推荐/风控[3][4][7] - 稠密模型具有简单性、高效性和普适性优势,Pytorch/TensorFlow工具链成熟,个人开发者落地成本低[7][8] - 随着参数膨胀,稠密模型训练成本上升,MoE架构通过稀疏门控节约资源但增加通信成本[7] 小模型性能表现 - Qwen3-0.6B可在2014年骁龙801芯片(4核2.5G CPU)上运行,当前小天才手表芯片性能是其2倍[9][10] - 实测显示iPhone 16 Pro Max实时响应,2015年索尼手机延迟1秒;4B模型能准确回答脑筋急转弯问题[11][13] - 官方称Qwen3-4B性能媲美Qwen2.5-72B,智能手机可流畅运行4B模型,电脑可运行8B模型[14] 行业生态适配 - 英特尔完成车端/AI PC适配,海光信息DCU芯片完成全系列8款模型优化[14][15] - 模型支持119种语言(上代29种),采用Apache2.0协议开源,覆盖全球200多国市场[17] - 开发者反馈小模型适合高并发(万级QPS)、低延迟(毫秒级)场景,已有企业用于边缘设备数据分析[18] 阿里AI战略布局 - 电商/物流/金融科技业务天然适合Dense模型,可降低大模型幻觉风险[17] - 整合天猫精灵与夸克团队,通义MAU1.48亿居国内AI应用榜首,强化"云+端"协同[19][21] - 小模型战略可降低算力成本,应对C端渗透率提升带来的资源压力[21]