Workflow
昇思MindSpore
icon
搜索文档
华为突破制裁的密码,藏在“384超节点”中
虎嗅APP· 2025-06-17 18:55
核心观点 - 华为通过系统工程创新弥补芯片工艺落后问题,推出"昇腾 CloudMatrix 384超节点"算力集群解决方案,性能超越英伟达B200 NVL 72平台 [3][4] - 公司采用"以非摩尔补摩尔、以集群补单芯片"策略,通过全互联对等架构和全局资源调度实现算力突破 [3][4][8] - 昇腾生态通过兼容主流框架和推出迁移工具逐步解决"易用性"问题,并计划开源盘古模型技术代码 [12][13] 技术突破 架构设计 - 采用全对等高速互联架构,通信带宽提升15倍,单跳时延从2微秒降至200纳秒 [8] - 实现全局内存统一编址,支持跨节点直接内存访问,优化大模型训练中的参数同步效率 [8] - 细粒度动态切分技术将计算与通信耗时比从1:1提升至3:1,针对MoE模型专家分布优化资源分配 [8] 协同创新 - 集结超万人团队跨部门作战,整合硬件工程、基础软件等领域积累实现技术协同 [9][10] - 利用自研400G光模块和OXC技术解决大规模集群互联问题 [9] - 内部"技术飞轮"机制通过基础大模型研发反哺算力底座优化 [10] 性能表现 - 384颗昇腾芯片提供300 PFLOPs稠密BF16算力,超越英伟达B200 NVL 72平台的180 PFLOPs [3] - 盘古Ultra MoE准万亿模型和Pro MoE模型在SuperCLUE榜单取得百亿模型榜首成绩 [10] - 大模型训练故障恢复时间从小时级缩短至分钟级 [13] 生态建设 - CANN异构计算架构兼容PyTorch/TensorFlow等主流框架 [12] - 昇思MindSpore推出MSAdaptor迁移工具,保持与PyTorch API一致性 [12] - 组建"小巧灵突击队"深入关基行业提供现场支持 [13]
从开源共建到生态繁荣:昇思MindSpore支持Day0迁移、一键部署
财联社· 2025-06-12 18:59
大模型技术发展趋势 - 大模型参数规模从十亿级跃升至万亿级,模型结构从稠密到稀疏,应用范式走向多模态和Agent [1] - 昇腾开发者核心诉求是如何在昇腾上快速使能和体验多种模型与技术 [1] 昇思MindSpore的核心挑战与解决方案 迁移挑战 - 实现三方框架模型"零成本"迁移,避免重复造轮子,同时模型精度完全对齐 [1] - 通过MindSpeed/Megatron桥接层实现PyTorch模型零代码迁移,训练脚本可直接运行 [4] - 动态图能力重构让PyTorch开发者获得"原生体验",MSAdapter工具自动转换95%以上接口 [4] - 主流模型如DeepSeek、Pangu等迁移损耗逼近于零 [4] 性能优化 - 动态图编译优化:多级流水线+即时编译(JIT),单卡训练效率提升40% [4] - 分布式智能调优:自动负载均衡工具解决万卡训练"木桶效应",线性度突破96% [4] - 逐层精度对齐:在昇腾硬件上实现主流模型逐层0误差 [4] 推理部署优化 - 支持HuggingFace模型半小时部署上线,通过vLLM-MindSpore插件实现分钟级服务化 [6] - 支持业界主流模型开箱即用,DeepSeek、Pangu、Qwen等20+模型已上线 [6] - 权重加载耗时降低80%(百亿模型小于30秒),图编译时延压缩至毫秒级 [6] 开源生态建设 - 昇思MindSpore累计获得1200万次下载,开发者遍布130个国家和地区,覆盖2400座城市 [7] - 超过四万六千名开发者参与,11万+行代码合入请求,1700多篇学术成果 [7] - 提供免费算力平台(MindSpore大模型平台),20+技术SIG组覆盖AI前沿领域 [8] 未来展望 - AI软件基座将属于开源开放与极简高效共舞的时代 [8]
Day0迁移、一键部署,昇思MindSpore打造昇腾的“咖啡伴侣”
21世纪经济报道· 2025-06-12 18:17
昇思MindSpore技术突破 - 支持三方框架模型"零成本"迁移,避免重复造轮子,模型精度完全对齐 [1] - 实现训转推全流程自动化,大模型部署像执行一行命令一般敏捷高效 [2] - 通过三重兼容术打通主流技术栈,支持主流加速库模型0代码迁移,训练性能提升5%+ [3] 训练生态优化 - 通过MindSpeed/Megatron桥接层实现PyTorch模型零代码迁移,训练脚本可直接运行 [4] - 动态图能力重构让PyTorch开发者获得"原生体验",MSAdapter工具自动转换95%以上接口 [4] - 动态图编译优化使单卡训练效率提升40%,分布式智能调优线性度突破96% [4] 推理部署能力 - 借助vLLM-MindSpore插件实现HuggingFace模型半小时部署上线 [5] - 支持HuggingFace权重直接加载,无需格式转换,分钟级服务化 [5] - 权重加载耗时降低80%(百亿模型小于30秒),图编译时延压缩至毫秒级 [5] 开源生态建设 - 已孕育出50多个主流大模型,累计获得1200万次下载 [7] - 开发者遍布130个国家和地区,超过46000名开发者参与 [7] - 社区共治模式采用理事会+SIG组双轮驱动,企业/高校共定技术路线 [8] - 提供免费算力平台(MindSpore大模型平台),20+技术SIG组覆盖AI前沿领域 [8]
Day0迁移、一键部署,华为开源的昇思MindSpore成为大模型开发的“万能钥匙”
量子位· 2025-06-12 16:17
华为开源的昇思MindSpore ,了解一下。 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 没有一个大模型可以一统天下。 这,或许已经成为了AI大模型时代行业里的一个共识。 在如此背景之下,面对众多且日新月异的主流大模型和AI技术,如何能 在一个框架、生态下去体验 ,却成了开发者们"老大难"的问题。 难道就没有一个又快又好又方便的解决办法吗? 有的—— 在这里,主流SOTA大模型的"搬家"是这样的—— 训练Day0迁移 : 只需改动极少极少的代码就OK,并且精度和性能都在线。 推理 是 一键部署 的: 训练转推理全流程自动化,20多个主流大模型开箱即用,百亿参数模型加载只需不到30秒。 △ MindSpore生态快速迁移解决方案的技术架构 那么昇思MindSpore是如何做到,我们继续往下看。 改4行代码,"搬家"DeepSeek-V3 为了让迁移大模型这件事变得无感知,昇思MindSpore"翻译神器"—— MSAdapter 。 简单来说,这个工具可以把其他框架的代码转换成MindSpore能看懂的语言,从而实现 "零损耗" 迁移。 比如PyTorch写的训练脚本,直接在MindSpore里运行 ...
Day0迁移、一键部署,华为开源的昇思MindSpore成为大模型开发的“万能钥匙”
量子位· 2025-06-12 16:16
大模型生态现状 - 行业共识认为没有一个大模型能够一统天下[1] - 开发者面临多框架生态下体验主流大模型的技术难题[2] 昇思MindSpore解决方案 - 提供训练Day0迁移能力 仅需极少代码改动即可实现精度和性能无损迁移[3][4] - 推理部署实现一键自动化 支持20+主流大模型开箱即用 百亿参数模型加载时间<30秒[5][23] 核心技术架构 - MSAdapter工具实现跨框架"零损耗"迁移 支持PyTorch脚本直接运行 接口自动转换率>95%[8][9][10] - 动态图多级流水技术提升算子处理速度3-4倍[13] - 自动策略寻优在DeepSeek-V3训练中实现性能提升9.5%[13] - JIT编译技术将常用代码模块化提升执行效率[13] 推理部署创新 - vLLM-MindSpore插件实现HuggingFace模型半小时内完成部署[18] - 千亿参数模型采用三层部署模式 Pangu Pro MoE 72B在Atlas 800I A2上实现1020 tokens/秒吞吐量[19] - 权重加载时间减少80% 图编译延迟压缩至毫秒级[23] 实际应用效果 - DeepSeek-V3案例显示代码变更量<1% 分布式任务仅需调整4行脚本[14] - 保持并行策略时可叠加自研技术实现额外5%性能提升[16] - 已支持DeepSeek/Pangu/Qwen等20+主流模型即插即用[23]
独家秘籍:探索昇思MindSpore如何让SOTA模型迁得快、对得齐
雷峰网· 2025-06-12 16:16
" 昇思MindSpore支持大模型训练Day0迁移、推理一键部署,携 手开发者共筑开源生态。 " 编辑丨 李希 大模型发展日新月异,新的大模型层出不穷,参数规模从十亿级跃升至万亿级,模型结构从稠密到稀疏, 应用范式走向多模态、 Agent… 如此多的模型和技术如何在昇腾上快速的使能和体验,是昇腾开发者的 核心诉求。昇思MindSpore "海纳百川",全面融入主流生态,全面优化训练与推理全流程开发体验,让 开发者用极小成本完成SOTA大模型的迁移 ,昇思 Mind Spore 需攻克两大关键挑战: 1. 迁得快:让三方框架模型 "零成本"迁移,避免重复造轮子,同时模型精度完全对齐。 2. 部署快:训转推全流程自动化,让大模型部署像执行一行命令一般敏捷高效。 迁移只是起点,性能才是硬道理。昇思 Mind Spore 构建了框架差异化技术,进一步提升模型训练效率: 02 支持推理一键部署,分钟级拉起模型服务 在推理部署方面,借助 vLLM-MindSpore插件实现HuggingFace模型半小时部署上线。 面对千亿参数模 型,昇思用三层部署范式重构推理链路: Figure 1 MindSpore生态快速迁移解 ...
独家秘籍:探索昇思MindSpore如何让SOTA模型迁得快、对得齐
雷峰网· 2025-06-12 16:15
昇思MindSpore技术优势 - 支持大模型训练Day0迁移和推理一键部署,显著降低开发者使用成本[1] - 通过三重兼容术实现主流加速库模型0代码迁移,训练性能提升5%+[5] - 动态图重构使PyTorch开发者获得原生体验,MSAdapter工具自动转换95%以上接口[5] 训练迁移解决方案 - MindSpeed/Megatron桥接层支持PyTorch模型零代码迁移,训练脚本直接运行[5] - 精度自动对比工具实现跨框架/版本/策略调优,主流模型迁移损耗逼近于零[5] - 框架差异化技术提升训练效率,分布式并行策略保持不变的性能优化[5][6] 推理部署创新 - vLLM-MindSpore插件实现HuggingFace模型半小时部署上线[7] - 三层部署范式:HF权重直接加载/20+主流模型开箱即用/百亿模型权重加载耗时降低80%[7] - 启动时延优化至百亿模型<30秒,图编译时延压缩至毫秒级[7] 开源生态建设 - 已支持50+主流大模型,累计获得1200万次下载,覆盖130个国家及2400座城市[8] - 46000+开发者参与,代码合入请求超11万行,产出1700+学术成果[8] - 提供免费算力平台和20+技术SIG组,企业/高校共治技术路线[9][15] 性能突破 - 动态图编译优化使单卡训练效率提升40%[10] - 自动负载均衡工具解决万卡训练木桶效应,线性度突破96%[10] - 昇腾硬件上实现主流模型逐层0误差精度对齐[10]
华为昇腾万卡集群揭秘:如何驯服AI算力「巨兽」?
雷峰网· 2025-06-09 21:37
算力集群技术演进 - AI算力集群通过连接上万台计算机形成"算力航空母舰",解决大模型训练中的协同工作、故障恢复等世界级难题 [3] - 万卡集群可用度达到98%,实现训练+推理场景下的秒级快速恢复 [1] 超节点高可用技术 - 采用系统层/业务层/运维层三级容错方案,将故障转为亚健康问题并通过运维手段消除 [5] - 系统层通过超时代答欺骗OS和网络路由切换防止超节点级故障 [5] - 业务层实现租户无感知的网络闪断重试,运维层通过主动感知技术削减亚健康事件影响 [6] 集群线性度优化 - 华为提出TACO、NSF、NB、AICT四项关键技术,实现算力规模与性能的近似线性增长 [8] - 实测Pangu Ultra 135B模型在4K卡集群线性度达96%,718B MoE模型在8K卡集群线性度95.05% [8] 万卡训练恢复技术 - 采用进程级重调度恢复技术将训练中断恢复时间缩短至3分钟内 [12] - 进程级在线恢复技术针对硬件UCE故障实现30秒内恢复,算子级在线恢复实现通信算子秒级重执行 [12] MoE模型推理容错 - 大EP组网架构下提出三级容错方案,实例恢复时间从20分钟降至5分钟 [14][15] - TOKEN级重试技术实现30-60秒实例恢复,减卡弹性恢复技术实现用户无感知的秒级恢复 [15] 故障诊断体系 - 构建全栈可观测能力,包含集群运行视图、网络链路监控等模块 [17] - 故障诊断覆盖全栈故障模式库、跨域诊断、计算节点诊断等维度 [17] 建模仿真平台 - 马尔科夫建模仿真平台实现训练吞吐提升4.5%-8.24%,通信暴露时间降低89.84% [20] - 推理建模仿真平均误差低至6.6%,高可用建模实现全周期故障场景仿真 [21] 框架迁移方案 - MindSpore通过MSAdapter工具覆盖90%以上PyTorch接口,实现第三方框架无缝迁移 [23] - 推理阶段支持HuggingFace权重一键部署,盘古72B模型实现推理性能提升 [23] 行业发展趋势 - 算力基础设施将形成"应用需求→硬件创新→工程反哺"的闭环演进路径 [25] - 未来方向包括算法驱动算力专用化、光电混合架构革新、AI智能化运维等 [25]
华为如何驯服AI算力「巨兽」?
虎嗅APP· 2025-06-09 20:54
通用人工智能(AGI)与系统工程创新 - 单点技术演进边际效应递减,系统性能天花板转向系统工程上限,需通过系统工程创新实现效能最优[1] - 华为推出《华为技术披露集》系列,首次全面详述技术细节,助力昇腾生态在中国发展[1][2] 万卡集群技术 - AI算力集群将上万台计算机整合为"算力航空母舰",解决协同工作、高效运行和快速修复等世界级难题[3] - 华为团队提出拓扑感知协同编排技术TACO等四项关键技术,训练Pangu Ultra 135B稠密模型时4K卡集群线性度达96%[8] 超节点高可用 - 算力集群采用"系统层容错"、"业务层容错"和"运维层容错"方案,将故障转为亚健康问题,确保24小时不间断运行[5][6] - CloudMatrix 384超节点通过超时代答欺骗OS和网络路由切换,避免系统级故障[6] 集群线性度 - 华为技术实现盘古模型训练线性度提升,8K卡A2集群训练Pangu Ultra MoE 718B稀疏模型时线性度达95.05%[8] 万卡集群训练快速恢复 - 进程级重调度恢复技术将训练恢复时间缩短至3分钟以内,进程级在线恢复技术进一步缩短至30秒以内[10][11] - 算子级在线恢复技术实现网络故障影响的通信算子秒级重执行,训练任务不中断[11] 超大规模MoE模型推理恢复 - 三级容错方案实现实例间切换、实例内重启恢复和实例内无损恢复,实例恢复时间从20分钟降至5分钟[13] - TOKEN级重试技术在CloudMatrix 384超节点场景下实现30~60秒实例恢复[13] 故障管理与感知诊断 - 华为提供昇腾AI硬件灾备高可靠架构设计,涵盖故障隔离、容错能力和故障预测等[15] - 全栈可观测能力和故障诊断技术实现大规模集群在线故障感知和诊断[16] 建模仿真 - 马尔科夫建模仿真平台实现训练、推理和高可用领域的多维度建模分析,训练吞吐提升4.5%-8.24%[18][19] - 推理建模仿真平台平均误差低至6.6%,高可用建模仿真框架实现全周期监控仿真[19] 框架迁移 - 昇思MindSpore构建MSAdapter生态适配工具,覆盖90%以上PyTorch接口,实现第三方框架无缝迁移[21] - 推理阶段支持HuggingFace权重配置一键部署,实现盘古72B模型推理性能提升[21] 未来展望 - 算力基础设施将形成"应用需求→硬件创新→工程反哺"闭环,实现高效、弹性、自愈的下一代系统[23]
让算力航母稳健远航,华为首次披露昇腾算力基础设施的压舱石
21世纪经济报道· 2025-06-09 20:08
( 3 ) Sim2Av a il abilit y高可用建模仿真: 马尔科夫高可用建模仿真框架,通过离散时间步长 仿真,建模单步时长内的故障性能劣化影响与恢复耗时,模拟复杂系统训练任务中的故障场 景及运维响应,实现对训练过程性能表现与故障恢复状态的全周期监控仿真。 建模仿真:算力底座的"数字化风洞" 框架迁移:给模型跑车换更酷炫轮胎 总结与展望 你是否注意到,现在的 AI 越来越 "聪明" 了?能写小说、做翻译,甚至帮医生看 CT 片,这些能 力背后离不开一个默默工作的 "超级大脑工厂"——AI 算力集群。随着人工智能从简单规则判断 进化到能处理万亿参数的大模型,单台计算机的算力就像小舢板面对汪洋大海,而算力集群则是 把上万台甚至几十万台计算机像搭积木一样连接起来,形成一艘能承载巨量计算任务的 "算力航 空母舰"。 当我们把上万台计算机整合成一个有机整体时,需要解决一系列世界级难题:如何让它们像 精密钟表一样协同工作?如何在部分设备故障时依然保持高效运行?如何快速修复大规模训 练中的中断问题?接下来我们将逐一揭秘这些支撑 AI 算力集群的关键特性,看看华为团队如 何用工程智慧驯服这头算力巨兽。 超节点高可用 ...