全栈可观测能力

搜索文档
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
雷峰网· 2025-06-10 18:30
高可用性AI算力集群的核心价值 - AI算力集群作为智能应用的"超级大脑",需具备"永不罢工"能力以支撑实时路况分析、医疗影像处理等高强度任务[2] - 高可用性相当于为集群上"保险",使其既能应对日常故障又能保持突发故障下的稳定运行,避免成为"半成品"引擎[2] 故障感知与管理技术突破 - 行业现状:万卡级AI集群日均故障≥1次,故障定位耗时数小时至数天,严重影响训练效率[4] - 创新方案: - 构建全栈可观测能力(集群运行/告警视图、网络链路监控等)实现秒级故障感知[4] - 开发四大诊断技术(全栈故障模式库、跨域/计算节点/网络诊断)[4] - 建立可靠性分析模型,使CloudMatrix超节点MTBF>24小时[4] 光链路容错技术 - 首创超节点光链路软件容错方案,通过多层防护体系实现: - 光模块闪断容忍度>99%[5] - 新增10倍光模块后闪断率降至电链路水平[5][6] - HBM多比特ECC故障恢复时间缩短至1分钟,算力损失下降5%[6] 集群线性度优化 - 采用TACO、NSF等四项关键技术提升训练线性度: - Pangu Ultra 135B稠密模型在4K卡集群实现96%线性度[10] - Pangu Ultra MoE 718B稀疏模型在8K卡集群达95.05%线性度[10] 训练任务快恢系统 - 分层级恢复能力: - 万卡集群整体恢复<10分钟[12] - 进程级重调度恢复<3分钟[12] - 进程级在线恢复≤30秒[12] - 关键技术包括数据集索引加速、模型编译缓存等[12] 推理业务容错方案 - 大EP组网架构三级容错: - 实例内重启恢复<5分钟[14] - TOKEN级重试技术使HBM KV Cache故障恢复<10秒,较行业提升60倍[14] 综合技术成果 - 六大创新方案实现: - 万卡集群可用度98%[16] - 训推秒级快恢[16] - 线性度>95%[16] - 千种故障模式库与分钟级诊断[16] 未来技术方向 - 聚焦三大领域:新应用场景多元化、异构融合架构突破、智能自治工程范式[16]