Workflow
昇腾算力集群
icon
搜索文档
华为如何驯服AI算力「巨兽」?
虎嗅APP· 2025-06-09 20:54
通用人工智能(AGI)与系统工程创新 - 单点技术演进边际效应递减,系统性能天花板转向系统工程上限,需通过系统工程创新实现效能最优[1] - 华为推出《华为技术披露集》系列,首次全面详述技术细节,助力昇腾生态在中国发展[1][2] 万卡集群技术 - AI算力集群将上万台计算机整合为"算力航空母舰",解决协同工作、高效运行和快速修复等世界级难题[3] - 华为团队提出拓扑感知协同编排技术TACO等四项关键技术,训练Pangu Ultra 135B稠密模型时4K卡集群线性度达96%[8] 超节点高可用 - 算力集群采用"系统层容错"、"业务层容错"和"运维层容错"方案,将故障转为亚健康问题,确保24小时不间断运行[5][6] - CloudMatrix 384超节点通过超时代答欺骗OS和网络路由切换,避免系统级故障[6] 集群线性度 - 华为技术实现盘古模型训练线性度提升,8K卡A2集群训练Pangu Ultra MoE 718B稀疏模型时线性度达95.05%[8] 万卡集群训练快速恢复 - 进程级重调度恢复技术将训练恢复时间缩短至3分钟以内,进程级在线恢复技术进一步缩短至30秒以内[10][11] - 算子级在线恢复技术实现网络故障影响的通信算子秒级重执行,训练任务不中断[11] 超大规模MoE模型推理恢复 - 三级容错方案实现实例间切换、实例内重启恢复和实例内无损恢复,实例恢复时间从20分钟降至5分钟[13] - TOKEN级重试技术在CloudMatrix 384超节点场景下实现30~60秒实例恢复[13] 故障管理与感知诊断 - 华为提供昇腾AI硬件灾备高可靠架构设计,涵盖故障隔离、容错能力和故障预测等[15] - 全栈可观测能力和故障诊断技术实现大规模集群在线故障感知和诊断[16] 建模仿真 - 马尔科夫建模仿真平台实现训练、推理和高可用领域的多维度建模分析,训练吞吐提升4.5%-8.24%[18][19] - 推理建模仿真平台平均误差低至6.6%,高可用建模仿真框架实现全周期监控仿真[19] 框架迁移 - 昇思MindSpore构建MSAdapter生态适配工具,覆盖90%以上PyTorch接口,实现第三方框架无缝迁移[21] - 推理阶段支持HuggingFace权重配置一键部署,实现盘古72B模型推理性能提升[21] 未来展望 - 算力基础设施将形成"应用需求→硬件创新→工程反哺"闭环,实现高效、弹性、自愈的下一代系统[23]
让算力航母稳健远航,华为首次披露昇腾算力基础设施的压舱石
21世纪经济报道· 2025-06-09 20:08
( 3 ) Sim2Av a il abilit y高可用建模仿真: 马尔科夫高可用建模仿真框架,通过离散时间步长 仿真,建模单步时长内的故障性能劣化影响与恢复耗时,模拟复杂系统训练任务中的故障场 景及运维响应,实现对训练过程性能表现与故障恢复状态的全周期监控仿真。 建模仿真:算力底座的"数字化风洞" 框架迁移:给模型跑车换更酷炫轮胎 总结与展望 你是否注意到,现在的 AI 越来越 "聪明" 了?能写小说、做翻译,甚至帮医生看 CT 片,这些能 力背后离不开一个默默工作的 "超级大脑工厂"——AI 算力集群。随着人工智能从简单规则判断 进化到能处理万亿参数的大模型,单台计算机的算力就像小舢板面对汪洋大海,而算力集群则是 把上万台甚至几十万台计算机像搭积木一样连接起来,形成一艘能承载巨量计算任务的 "算力航 空母舰"。 当我们把上万台计算机整合成一个有机整体时,需要解决一系列世界级难题:如何让它们像 精密钟表一样协同工作?如何在部分设备故障时依然保持高效运行?如何快速修复大规模训 练中的中断问题?接下来我们将逐一揭秘这些支撑 AI 算力集群的关键特性,看看华为团队如 何用工程智慧驯服这头算力巨兽。 超节点高可用 ...