昇腾 AI 算力集群有多稳？万卡可用度 98%，秒级恢复故障不用愁

AI算力集群高可用性技术核心观点 - AI算力集群需具备"永不罢工"能力，通过高可用性技术保障24小时稳定运行，成为驱动业务创新的可靠引擎[1] - 华为提出六大创新方案解决AI集群故障率高、恢复慢等问题，包括三大基础能力（故障感知诊断、故障管理、光链路容错）和三大业务支撑能力（集群线性度、训练快恢、推理快恢）[12] 技术方案细节故障感知与诊断 - 行业现状：万卡级AI集群日均故障≥1次，故障定位耗时数小时至数天[2] - 华为方案： - 构建全栈可观测能力（集群运行视图/告警视图/网络链路监控等）[2] - 开发四大诊断技术（全栈故障模式库/跨域故障诊断/计算节点诊断/网络诊断）[2] - 实现千种故障模式库与分钟级故障诊断[12] 硬件可靠性提升 - 通过可靠性系统工程实现CloudMatrix超节点万卡集群MTBF>24小时[3] - 光链路容错方案： - 首创光链路软件容错技术，容忍度>99%[3] - 新增10倍光模块后闪断率降至电链路水平[3] - HBM多比特ECC故障恢复时间缩短至1min，算力损失下降5%[3] 训练效率优化 - 线性度提升技术： - 采用TACO、NSF、NB、AICT四项关键技术[4] - 实测结果： - 135B稠密模型4K卡线性度96%[6] - 718B稀疏模型8K卡线性度95.05%，4K卡线性度96.48%[6] - 训练快恢系统： - 万卡集群恢复时间<10min[7] - 进程级重调度恢复<3min，在线恢复<30s[9] - 训练回滚时间缩短至单个迭代周期[9] 推理容错方案 - 大EP组网架构下提出三级容错：实例间切换/实例内重启/实例内无损恢复[9] - 关键技术突破： - 实例内重启恢复<5min[10] - TOKEN级重试技术使HBM KV Cache故障恢复<10s，较行业标准提升60倍[10] 技术成效 - 万卡集群可用度达98%[12] - 训推恢复最快达秒级[12] - 集群线性度>95%[12]