全栈可观测能力 - 财报，业绩电话会，研报，新闻

全栈可观测能力

搜索文档

雷峰网· 2025-06-10 18:30

高可用性AI算力集群的核心价值 - AI算力集群作为智能应用的"超级大脑"，需具备"永不罢工"能力以支撑实时路况分析、医疗影像处理等高强度任务[2] - 高可用性相当于为集群上"保险"，使其既能应对日常故障又能保持突发故障下的稳定运行，避免成为"半成品"引擎[2] 故障感知与管理技术突破 - 行业现状：万卡级AI集群日均故障≥1次，故障定位耗时数小时至数天，严重影响训练效率[4] - 创新方案： - 构建全栈可观测能力（集群运行/告警视图、网络链路监控等）实现秒级故障感知[4] - 开发四大诊断技术（全栈故障模式库、跨域/计算节点/网络诊断）[4] - 建立可靠性分析模型，使CloudMatrix超节点MTBF＞24小时[4] 光链路容错技术 - 首创超节点光链路软件容错方案，通过多层防护体系实现： - 光模块闪断容忍度＞99%[5] - 新增10倍光模块后闪断率降至电链路水平[5][6] - HBM多比特ECC故障恢复时间缩短至1分钟，算力损失下降5%[6] 集群线性度优化 - 采用TACO、NSF等四项关键技术提升训练线性度： - Pangu Ultra 135B稠密模型在4K卡集群实现96%线性度[10] - Pangu Ultra MoE 718B稀疏模型在8K卡集群达95.05%线性度[10] 训练任务快恢系统 - 分层级恢复能力： - 万卡集群整体恢复＜10分钟[12] - 进程级重调度恢复＜3分钟[12] - 进程级在线恢复≤30秒[12] - 关键技术包括数据集索引加速、模型编译缓存等[12] 推理业务容错方案 - 大EP组网架构三级容错： - 实例内重启恢复＜5分钟[14] - TOKEN级重试技术使HBM KV Cache故障恢复＜10秒，较行业提升60倍[14] 综合技术成果 - 六大创新方案实现： - 万卡集群可用度98%[16] - 训推秒级快恢[16] - 线性度＞95%[16] - 千种故障模式库与分钟级诊断[16] 未来技术方向 - 聚焦三大领域：新应用场景多元化、异构融合架构突破、智能自治工程范式[16]

AI算力集群高可用性

全栈可观测能力

故障诊断技术

Telecommunications Equipment

Telecommunications Equipment

昇腾AI算力集群

CloudMatrix超节点