华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断
量子位·2025-06-10 13:16
大模型算力集群技术 - 构建万卡级算力集群是全球顶尖技术挑战,性能稳定依赖强大算力支撑[1] - AI算力需24小时不间断运作,支撑导航路况分析、医疗CT诊断等实时智能应用[2][3] - AI推理可用度需达99.95%,高训练可用度、高线性度、快速故障消除是关键保障[4][5] 华为高可用技术体系 三大基础能力 - 全栈可观测能力:训练可用度98%(全年358天可用)、线性度超95%(1000卡比100卡快9.5倍)、秒级恢复与分钟级诊断[9] - 故障诊断组合拳:包含全栈故障模式库、跨域诊断、计算节点诊断、网络诊断四大技术,缩短故障定位时间[12][19] - 自愈系统:超节点光链路软件容错技术可容忍99%光模块闪断,HBM多比特ECC故障修复时间从数小时缩短至1分钟[15][16] 三大业务支撑能力 - 集群线性度:Pangu Ultra 135B稠密模型4K卡训练线性度96%,718B稀疏模型8K卡线性度95.05%[24] - 训练快恢:分层分级恢复系统实现万卡集群10分钟恢复,进程级在线恢复仅需30秒[27][29] - 推理快恢:实例内重启恢复<5分钟,TOKEN级重试技术使HBM故障恢复时间从10分钟降至10秒[35][36] 关键技术突破 - 通信优化:TACO拓扑任务分配、NSF网存算融合、NB分层通信、AICT无侵入诊断提升数据传输效率[31] - 推理架构容错:三步保险计划(实例间切换、实例内重启、无损恢复)降低大EP架构故障影响[34][37] - 效率提升:光链路压力测试使光模块闪断概率降至电链路水平,算力损失减少5%[16]