AI算力集群高可用性技术 - AI算力集群需要具备"永不罢工"能力以支撑智能应用持续运行,高可用性相当于为"数字发动机"上保险[1] - 万卡级AI集群平均每天出现1次以上故障,严重影响训练效率并造成算力资源浪费[3] - 华为团队通过全栈可观测能力构建故障感知系统,包括集群运行视图、告警视图、网络链路监控等组件[2] - 提出四大故障诊断技术:全栈故障模式库、跨域故障诊断、计算节点诊断、网络诊断[2] 超节点可靠性技术 - 华为建立AI集群全系统可靠性分析模型,实现CloudMatrix超节点万卡集群MTBF大于24小时[3] - 首创超节点光链路软件容错方案,通过多层防护体系实现光模块闪断故障容忍度>99%[4] - 新增10倍以上光模块后,通过软件措施使闪断率降至电链路水平[4] - HBM多比特ECC故障恢复时间缩短至1分钟,用户算力损失下降5%[4] 训练线性度提升技术 - 采用TACO、NSF、NB、AICT四项关键技术提升Pangu模型训练线性度[5] - 训练Pangu Ultra 135B稠密模型时,4K卡集群相比256卡基线线性度达96%[5] - 训练Pangu Ultra MoE 718B稀疏模型时,8K卡集群线性度达95.05%,4K卡达96.48%[5] 训练任务快恢系统 - 构建分层分级训练任务故障快恢系统,万卡集群恢复时间缩短至10分钟内[6] - 进程级重调度恢复时间压缩至3分钟内,在线恢复进一步缩短至30秒内[6] - 训练回滚时间降至单个迭代周期,与集群和模型规模无关[6] 推理容错技术 - 提出三级容错方案:实例间切换、实例内重启恢复、实例内无损恢复[7] - 实例内重启恢复时间压缩至5分钟内,TOKEN级重试技术恢复时长小于10秒[7] - 相比业界10分钟恢复实例,TLR技术将故障影响降低60倍[7] 综合技术成果 - 六大创新方案使万卡集群可用度达98%,训推恢复最快达秒级[8] - 实现95%+集群线性度,建立千种故障模式库与分钟级诊断能力[8] - 未来将在新应用驱动、新架构突破、新工程范式三方向持续探索[8]
昇腾AI算力集群有多稳?万卡可用度98%,秒级恢复故障不用愁
21世纪经济报道·2025-06-10 20:55