昇腾万卡算力集群

搜索文档
华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断
量子位· 2025-06-10 13:16
大模型算力集群技术 - 构建万卡级算力集群是全球顶尖技术挑战,性能稳定依赖强大算力支撑[1] - AI算力需24小时不间断运作,支撑导航路况分析、医疗CT诊断等实时智能应用[2][3] - AI推理可用度需达99.95%,高训练可用度、高线性度、快速故障消除是关键保障[4][5] 华为高可用技术体系 三大基础能力 - **全栈可观测能力**:训练可用度98%(全年358天可用)、线性度超95%(1000卡比100卡快9.5倍)、秒级恢复与分钟级诊断[9] - **故障诊断组合拳**:包含全栈故障模式库、跨域诊断、计算节点诊断、网络诊断四大技术,缩短故障定位时间[12][19] - **自愈系统**:超节点光链路软件容错技术可容忍99%光模块闪断,HBM多比特ECC故障修复时间从数小时缩短至1分钟[15][16] 三大业务支撑能力 - **集群线性度**:Pangu Ultra 135B稠密模型4K卡训练线性度96%,718B稀疏模型8K卡线性度95.05%[24] - **训练快恢**:分层分级恢复系统实现万卡集群10分钟恢复,进程级在线恢复仅需30秒[27][29] - **推理快恢**:实例内重启恢复<5分钟,TOKEN级重试技术使HBM故障恢复时间从10分钟降至10秒[35][36] 关键技术突破 - **通信优化**:TACO拓扑任务分配、NSF网存算融合、NB分层通信、AICT无侵入诊断提升数据传输效率[31] - **推理架构容错**:三步保险计划(实例间切换、实例内重启、无损恢复)降低大EP架构故障影响[34][37] - **效率提升**:光链路压力测试使光模块闪断概率降至电链路水平,算力损失减少5%[16]