MindSpeed - 财报，业绩电话会，研报，新闻

MindSpeed

搜索文档

雷峰网· 2025-05-30 17:48

华为昇腾与Pangu Ultra MoE技术创新 - 公司通过"昇腾+Pangu Ultra MoE"组合实现国产算力与模型全流程自主可控训练闭环，集群训练系统性能达行业领先水平[4] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%，后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[5] - 首次披露高效打通大稀疏比MoE强化学习后训练框架的关键技术，推动RL后训练进入超节点集群时代[6][7] MoE模型训练技术痛点与解决方案 - 当前MoE训练存在六大挑战：并行策略配置困难、All-to-All通信瓶颈、系统负载不均、算子调度开销大、训练流程管理复杂、大规模扩展受限[10][11] - 公司提出三阶段解决方案： - 提升训练集群利用率：通过智能并行优化、分层All-to-All通信去冗余、EDP全局负载均衡策略，将专家并行通信开销降至<2%[14][18][19] - 释放昇腾单节点算力：采用昇腾亲和算子加速、Host-Device协同下发优化、Selective R/S内存手术方案，实现MBS翻倍和70%激活值内存节省[22][25][27] - RL后训练创新：RL Fusion训推共卡技术支持多维并行策略动态切换，准异步机制StaleSync使训练吞吐提升50%[28][30] Pangu Ultra MoE模型性能突破 - 模型架构：7180亿参数，61层Transformer（3稠密层+58 MoE层），256路由专家+1共享专家，隐层维度7680[35] - 预训练性能：6K-10K卡昇腾800T A2集群实现8K序列长度下41% MFU，预计CloudMatrix 384超节点可支撑MFU>50%[35] - 后训练性能：CloudMatrix 384超节点实现35K Tokens/s吞吐，支持4K卡集群扩展，等效每2秒完成高数大题级推理任务[36] 技术架构创新细节 - 并行策略：采用16路流水线并行+8路张量并行+32路专家并行+2路虚拟流水线并行的混合架构[15] - 通信优化：分层专家并行通信结合虚拟流水线并行掩盖策略，实现计算通信深度融合[18] - 内存管理：构建自适应内存优化框架，支持模块级到张量级的细粒度内存调配[26] - 训推协同：支持分离部署/训推共卡/全共卡三种模式，秒级完成状态转换[28][33]

快讯· 2025-04-29 18:31

阿里通义千问模型Qwen3开源与华为昇腾支持 - 阿里通义千问模型Qwen3于4月29日开源数小时后即获得华为昇腾的全系列模型部署支持 [1] - 开发者可通过华为MindSpeed和MindIE工具实现千问3的0Day适配即开箱即用 [1] - 千问3是国内首个"混合推理模型"集成"快思考"与"慢思考"机制 [1] 千问3技术特性 - 模型对简单需求采用低算力"秒回"模式显著提升响应效率 [1] - 对复杂问题启用多步骤"深度思考"功能优化计算资源分配 [1] - 混合推理架构设计实现整体算力消耗的大幅节省 [1]