Workflow
AI算力集群高可用性
icon
搜索文档
昇腾AI算力集群有多稳?万卡可用度98%,秒级恢复故障不用愁
21世纪经济报道· 2025-06-10 20:55
想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测 拥堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智 能应用,背后都依赖着像 "超级大脑" 一样的 AI 算力集群在 24 小时不停运转。 如果把 AI 算力集群比作一个大型工厂的生产线,高可用性就相当于让这条生产线具备 "永不 罢工" 的能力,给 AI 算力集群上了一份 "保险",让这个支撑智能时代的 "数字发动机" 既能 承 受 日 常 的 " 小 磕 小 碰 " , 又 能 在 遇 到 突 发 故 障 时 保 持 稳 定 运 行 。 只 有 确 保 算 力 资 源 随 时 可 用、持续输出,才能让 AI 真正成为驱动业务创新的可靠引擎,而不是随时可能熄火的 "半成 品"。 高可用核心基础——面向超节点的故障感知、管理及容错 AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然 后各域内部故障定界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要 求高 ,难以找到故障设备和根因。华为团队为了让集群运维工具能够快速找到问题原因,有 效提升 ...
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
雷峰网· 2025-06-10 18:30
高可用性AI算力集群的核心价值 - AI算力集群作为智能应用的"超级大脑",需具备"永不罢工"能力以支撑实时路况分析、医疗影像处理等高强度任务[2] - 高可用性相当于为集群上"保险",使其既能应对日常故障又能保持突发故障下的稳定运行,避免成为"半成品"引擎[2] 故障感知与管理技术突破 - 行业现状:万卡级AI集群日均故障≥1次,故障定位耗时数小时至数天,严重影响训练效率[4] - 创新方案: - 构建全栈可观测能力(集群运行/告警视图、网络链路监控等)实现秒级故障感知[4] - 开发四大诊断技术(全栈故障模式库、跨域/计算节点/网络诊断)[4] - 建立可靠性分析模型,使CloudMatrix超节点MTBF>24小时[4] 光链路容错技术 - 首创超节点光链路软件容错方案,通过多层防护体系实现: - 光模块闪断容忍度>99%[5] - 新增10倍光模块后闪断率降至电链路水平[5][6] - HBM多比特ECC故障恢复时间缩短至1分钟,算力损失下降5%[6] 集群线性度优化 - 采用TACO、NSF等四项关键技术提升训练线性度: - Pangu Ultra 135B稠密模型在4K卡集群实现96%线性度[10] - Pangu Ultra MoE 718B稀疏模型在8K卡集群达95.05%线性度[10] 训练任务快恢系统 - 分层级恢复能力: - 万卡集群整体恢复<10分钟[12] - 进程级重调度恢复<3分钟[12] - 进程级在线恢复≤30秒[12] - 关键技术包括数据集索引加速、模型编译缓存等[12] 推理业务容错方案 - 大EP组网架构三级容错: - 实例内重启恢复<5分钟[14] - TOKEN级重试技术使HBM KV Cache故障恢复<10秒,较行业提升60倍[14] 综合技术成果 - 六大创新方案实现: - 万卡集群可用度98%[16] - 训推秒级快恢[16] - 线性度>95%[16] - 千种故障模式库与分钟级诊断[16] 未来技术方向 - 聚焦三大领域:新应用场景多元化、异构融合架构突破、智能自治工程范式[16]
敢说永不掉线、秒级恢复,华为的底气是什么?
虎嗅APP· 2025-06-10 18:18
通用人工智能(AGI)与系统工程创新 - 单点技术演进边际效应递减,系统性能天花板转向系统工程上限,需通过系统工程创新实现系统效能最优[1] - 以整体视角重构路径,通过复杂系统的极致把控与再组织寻找技术突破可能,有望独立引领前沿技术发展[1] 高可用性核心基础 - 华为构建全栈可观测能力,包括集群运行视图、告警视图、网络链路监控等,提升故障感知能力[5] - 建立AI集群全系统可靠性分析模型,实现CloudMatrix超节点万卡集群MTBF大于24小时的硬件高可靠能力[6] - 提出超节点光链路软件容错方案,光模块闪断故障率容忍度>99%,新增10倍+光模块后闪断率低至电链路水平[6] 高可用性业务支撑 - 训练Pangu Ultra 135B稠密模型时,4K卡集群相比256卡基线线性度达96%;Pangu Ultra MoE 718B稀疏模型8K卡集群线性度95.05%[11] - 万卡集群训练恢复时间优化至10min以内,进程级重调度恢复缩短至3min,进程级在线恢复进一步压缩至30s[14] - 大EP推理架构采用三级容错方案,实例内重启恢复时间压缩至5min内,TOKEN级重试技术使故障影响减少60倍[16] 创新方案与未来方向 - 六大创新方案包括故障感知诊断、故障管理、光链路容错三大基础能力,以及集群线性度、训练快恢、推理快恢三大业务支撑能力[18] - 未来将在场景多元化、异构融合与资源池化、极致可观可测与智能自治免维三个方向持续探索[18]