Workflow
马尔科夫建模仿真平台
icon
搜索文档
华为昇腾万卡集群揭秘:如何驯服AI算力「巨兽」?
雷峰网· 2025-06-09 21:37
算力集群技术演进 - AI算力集群通过连接上万台计算机形成"算力航空母舰",解决大模型训练中的协同工作、故障恢复等世界级难题 [3] - 万卡集群可用度达到98%,实现训练+推理场景下的秒级快速恢复 [1] 超节点高可用技术 - 采用系统层/业务层/运维层三级容错方案,将故障转为亚健康问题并通过运维手段消除 [5] - 系统层通过超时代答欺骗OS和网络路由切换防止超节点级故障 [5] - 业务层实现租户无感知的网络闪断重试,运维层通过主动感知技术削减亚健康事件影响 [6] 集群线性度优化 - 华为提出TACO、NSF、NB、AICT四项关键技术,实现算力规模与性能的近似线性增长 [8] - 实测Pangu Ultra 135B模型在4K卡集群线性度达96%,718B MoE模型在8K卡集群线性度95.05% [8] 万卡训练恢复技术 - 采用进程级重调度恢复技术将训练中断恢复时间缩短至3分钟内 [12] - 进程级在线恢复技术针对硬件UCE故障实现30秒内恢复,算子级在线恢复实现通信算子秒级重执行 [12] MoE模型推理容错 - 大EP组网架构下提出三级容错方案,实例恢复时间从20分钟降至5分钟 [14][15] - TOKEN级重试技术实现30-60秒实例恢复,减卡弹性恢复技术实现用户无感知的秒级恢复 [15] 故障诊断体系 - 构建全栈可观测能力,包含集群运行视图、网络链路监控等模块 [17] - 故障诊断覆盖全栈故障模式库、跨域诊断、计算节点诊断等维度 [17] 建模仿真平台 - 马尔科夫建模仿真平台实现训练吞吐提升4.5%-8.24%,通信暴露时间降低89.84% [20] - 推理建模仿真平均误差低至6.6%,高可用建模实现全周期故障场景仿真 [21] 框架迁移方案 - MindSpore通过MSAdapter工具覆盖90%以上PyTorch接口,实现第三方框架无缝迁移 [23] - 推理阶段支持HuggingFace权重一键部署,盘古72B模型实现推理性能提升 [23] 行业发展趋势 - 算力基础设施将形成"应用需求→硬件创新→工程反哺"的闭环演进路径 [25] - 未来方向包括算法驱动算力专用化、光电混合架构革新、AI智能化运维等 [25]