华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断
量子位·2025-06-10 13:16
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 大模型的落地能力,核心在于性能的稳定输出,而性能稳定的底层支撑,是强大的算力集群。其中,构建万卡级算力集群,已成为全球公认 的顶尖技术挑战。 但是,在 华为 ,昇腾万卡算力集群,已经可以做到近乎 "永不罢工" 了: 或许有小伙伴要问了:AI算力需要如此24小时不间断的运作吗? 关于这一切背后的秘密,华为在今天首次把技术给公开了出来。 高可用的核心:三套"智能保险系统" 答案是肯定的,需要,且有必要。 因为小到我们用手机导个航,背后都会有几十个AI模型在发力来分析路况、预测拥堵;再如医院用AI辅助诊断癌症,系统得在瞬间处理掉成 百上千的CT照片。 这些看似简单的智能应用,其实都离不开如 "超级大脑" 般的AI算力集群,需要它们全天候不停歇地运转着。 而要保证有这样的能力,高训练可用度、高线性度、快速消除故障,就相当于给AI发动机上了一份强有力的保险。 更严格来说,AI推理的可用度甚至还需要 达到99.95%的程度。 那么华为又是如何做到这点的? AI大集群出问题时,定位故障特别麻烦;毕竟系统规模庞大,软件和硬件组成的技术栈错综复杂,而且调用链条还很长。 要解 ...