昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
第一财经·2025-06-10 19:25
想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测拥 堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智能应 用,背后都依赖着像 " 超级大脑 " 一样的 AI 算力集群在 24 小时不停运转。 超节点需要做大超节点规模,才能充分发挥超平面网络的优势,目前业界没有使用光链路来构建超节 点的成功案例,因此华为团队提出了相应的超节点光链路软件容错方案。通过多层防护体系,借助超 时代答,绿色通道等关键技术实现无超节点级故障,通过链路级重传,光模块动态升降 Lane , HCCL 算子重执行,借轨通信,双层路由收敛, Step 级重调度等特性,实现光模块闪断的故障率容 忍度 >99% 。在新增 10 倍 + 光模块后,通过软件可靠性措施,以及光链路压测技术等,实现光模 块闪断率低至电链路水平,保障了超平面的可靠性。通过构建 Step 级重调度能力,高频的 HBM 多 比特 ECC 故障恢复时间 缩短至 1min ,对于因为故障造成的用户的算力 损失下降 5% 。 高可用助力业务——万卡集群上千亿模型的线性度和训推快恢 线性度指标用于衡量训练 ...