AI算力集群高可用性

搜索文档
昇腾AI算力集群有多稳?万卡可用度98%,秒级恢复故障不用愁
21世纪经济报道· 2025-06-10 20:55
AI算力集群高可用性技术 - AI算力集群需要具备"永不罢工"能力以支撑智能应用持续运行,高可用性相当于为"数字发动机"上保险[1] - 万卡级AI集群平均每天出现1次以上故障,严重影响训练效率并造成算力资源浪费[3] - 华为团队通过全栈可观测能力构建故障感知系统,包括集群运行视图、告警视图、网络链路监控等组件[2] - 提出四大故障诊断技术:全栈故障模式库、跨域故障诊断、计算节点诊断、网络诊断[2] 超节点可靠性技术 - 华为建立AI集群全系统可靠性分析模型,实现CloudMatrix超节点万卡集群MTBF大于24小时[3] - 首创超节点光链路软件容错方案,通过多层防护体系实现光模块闪断故障容忍度>99%[4] - 新增10倍以上光模块后,通过软件措施使闪断率降至电链路水平[4] - HBM多比特ECC故障恢复时间缩短至1分钟,用户算力损失下降5%[4] 训练线性度提升技术 - 采用TACO、NSF、NB、AICT四项关键技术提升Pangu模型训练线性度[5] - 训练Pangu Ultra 135B稠密模型时,4K卡集群相比256卡基线线性度达96%[5] - 训练Pangu Ultra MoE 718B稀疏模型时,8K卡集群线性度达95.05%,4K卡达96.48%[5] 训练任务快恢系统 - 构建分层分级训练任务故障快恢系统,万卡集群恢复时间缩短至10分钟内[6] - 进程级重调度恢复时间压缩至3分钟内,在线恢复进一步缩短至30秒内[6] - 训练回滚时间降至单个迭代周期,与集群和模型规模无关[6] 推理容错技术 - 提出三级容错方案:实例间切换、实例内重启恢复、实例内无损恢复[7] - 实例内重启恢复时间压缩至5分钟内,TOKEN级重试技术恢复时长小于10秒[7] - 相比业界10分钟恢复实例,TLR技术将故障影响降低60倍[7] 综合技术成果 - 六大创新方案使万卡集群可用度达98%,训推恢复最快达秒级[8] - 实现95%+集群线性度,建立千种故障模式库与分钟级诊断能力[8] - 未来将在新应用驱动、新架构突破、新工程范式三方向持续探索[8]
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
雷峰网· 2025-06-10 18:30
高可用性AI算力集群的核心价值 - AI算力集群作为智能应用的"超级大脑",需具备"永不罢工"能力以支撑实时路况分析、医疗影像处理等高强度任务[2] - 高可用性相当于为集群上"保险",使其既能应对日常故障又能保持突发故障下的稳定运行,避免成为"半成品"引擎[2] 故障感知与管理技术突破 - 行业现状:万卡级AI集群日均故障≥1次,故障定位耗时数小时至数天,严重影响训练效率[4] - 创新方案: - 构建全栈可观测能力(集群运行/告警视图、网络链路监控等)实现秒级故障感知[4] - 开发四大诊断技术(全栈故障模式库、跨域/计算节点/网络诊断)[4] - 建立可靠性分析模型,使CloudMatrix超节点MTBF>24小时[4] 光链路容错技术 - 首创超节点光链路软件容错方案,通过多层防护体系实现: - 光模块闪断容忍度>99%[5] - 新增10倍光模块后闪断率降至电链路水平[5][6] - HBM多比特ECC故障恢复时间缩短至1分钟,算力损失下降5%[6] 集群线性度优化 - 采用TACO、NSF等四项关键技术提升训练线性度: - Pangu Ultra 135B稠密模型在4K卡集群实现96%线性度[10] - Pangu Ultra MoE 718B稀疏模型在8K卡集群达95.05%线性度[10] 训练任务快恢系统 - 分层级恢复能力: - 万卡集群整体恢复<10分钟[12] - 进程级重调度恢复<3分钟[12] - 进程级在线恢复≤30秒[12] - 关键技术包括数据集索引加速、模型编译缓存等[12] 推理业务容错方案 - 大EP组网架构三级容错: - 实例内重启恢复<5分钟[14] - TOKEN级重试技术使HBM KV Cache故障恢复<10秒,较行业提升60倍[14] 综合技术成果 - 六大创新方案实现: - 万卡集群可用度98%[16] - 训推秒级快恢[16] - 线性度>95%[16] - 千种故障模式库与分钟级诊断[16] 未来技术方向 - 聚焦三大领域:新应用场景多元化、异构融合架构突破、智能自治工程范式[16]
敢说永不掉线、秒级恢复,华为的底气是什么?
虎嗅APP· 2025-06-10 18:18
通用人工智能(AGI)与系统工程创新 - 单点技术演进边际效应递减,系统性能天花板转向系统工程上限,需通过系统工程创新实现系统效能最优[1] - 以整体视角重构路径,通过复杂系统的极致把控与再组织寻找技术突破可能,有望独立引领前沿技术发展[1] 高可用性核心基础 - 华为构建全栈可观测能力,包括集群运行视图、告警视图、网络链路监控等,提升故障感知能力[5] - 建立AI集群全系统可靠性分析模型,实现CloudMatrix超节点万卡集群MTBF大于24小时的硬件高可靠能力[6] - 提出超节点光链路软件容错方案,光模块闪断故障率容忍度>99%,新增10倍+光模块后闪断率低至电链路水平[6] 高可用性业务支撑 - 训练Pangu Ultra 135B稠密模型时,4K卡集群相比256卡基线线性度达96%;Pangu Ultra MoE 718B稀疏模型8K卡集群线性度95.05%[11] - 万卡集群训练恢复时间优化至10min以内,进程级重调度恢复缩短至3min,进程级在线恢复进一步压缩至30s[14] - 大EP推理架构采用三级容错方案,实例内重启恢复时间压缩至5min内,TOKEN级重试技术使故障影响减少60倍[16] 创新方案与未来方向 - 六大创新方案包括故障感知诊断、故障管理、光链路容错三大基础能力,以及集群线性度、训练快恢、推理快恢三大业务支撑能力[18] - 未来将在场景多元化、异构融合与资源池化、极致可观可测与智能自治免维三个方向持续探索[18]