故障容错

搜索文档
让算力航母稳健远航,华为首次披露昇腾算力基础设施的压舱石
21世纪经济报道· 2025-06-09 20:08
AI算力集群技术演进 - AI算力集群通过整合上万台计算机形成"算力航空母舰",以应对万亿参数大模型的计算需求,单机算力已无法满足复杂AI任务[1] - 集群需解决三大核心挑战:设备协同工作、故障时高效运行、训练中断快速修复,华为团队通过工程创新实现技术突破[1] 超节点高可用技术 - 采用"系统层-业务层-运维层"三级容错方案,将故障转为亚健康问题,通过超时代答欺骗OS和网络路由切换防止系统级故障[1] - 在CloudMatrix 384超节点中实现租户无感知的网络闪断重试,运维层通过亚健康感知技术主动消除故障影响[1] 集群线性度优化 - 提出TACO、NSF、NB、AICT四项关键技术,实现算力规模与性能的线性增长,PanGu Ultra 135B模型在4K卡集群实现96%线性度[1] - PanGu Ultra MoE 718B稀疏模型在8K卡集群线性度达95.05%,4K卡CloudMatrix集群线性度达96.48%[1] 万卡训练快速恢复 - 进程级重调度恢复技术将训练恢复时间缩短至3分钟内,在线恢复技术针对硬件UCE故障实现30秒内恢复[1] - 算子级在线恢复通过HCCL算子重试实现网络故障秒级恢复,训练任务不中断[1] MoE模型推理容错 - 三级容错方案实现实例间切换/重启/无损恢复,实例恢复时间从20分钟降至5分钟[1] - TOKEN级重试技术在CloudMatrix 384场景下实现30-60秒实例恢复,减卡弹性恢复技术实现秒级无感知恢复[1] 故障感知与诊断 - 构建全栈可观测能力,包含集群运行视图、网络链路监控等模块,实现硬件故障实时监测[1] - 建立全栈故障模式库,涵盖跨域诊断、计算节点诊断、网络诊断等技术,提升故障定位效率[1] 数字化仿真建模 - Sim2Train平台通过AdaptPack编排优化长序列PP空泡,吞吐提升4.5%-8.24%,AdaptS/R技术缩短单步时长3.25%[1][2] - Sim2Infer推理仿真平台实现硬件指令自动化映射,平均误差仅6.6%,Sim2Availability框架可模拟复杂系统故障场景[1][2] 框架迁移与生态兼容 - MindSpore构建MSAdapter工具覆盖90%以上PyTorch接口,通过多级流水线技术提升动态图执行效率[1] - 推理阶段兼容HuggingFace权重配置,vLLM-MindSpore插件支持大模型服务化,实现盘古72B模型快速部署[1] 未来技术演进方向 - 算法-算力-工程协同进化将形成"应用需求→硬件创新→工程反哺"闭环,光电混合架构释放性能潜力[1] - 智能化工程手段如AI运维将弥合系统复杂度,推动高效、弹性、自愈的下一代算力基础设施发展[1]
华为昇腾万卡集群揭秘:如何驯服AI算力「巨兽」?
机器之心· 2025-06-09 12:33
AI算力集群的核心作用 - AI算力集群通过连接上万台甚至几十万台计算机形成"算力航空母舰",支撑大模型训练和复杂AI任务处理[3] - 单台计算机算力无法满足万亿参数大模型需求,集群化方案解决算力瓶颈问题[3] - 集群需要解决设备协同工作、故障容错、训练中断恢复等世界级工程难题[4] 超节点高可用技术 - 采用系统层/业务层/运维层三级容错方案,将故障转为亚健康状态并通过运维手段消除[7][8] - 系统层通过超时代答欺骗OS和网络路由切换防止系统级故障[7] - 业务层实现租户无感知的网络闪断重试,运维层构筑亚健康感知和优雅恢复技术[8] 集群线性度优化 - 通过拓扑感知协同编排(TACO)、网存算融合(NSF)等四项关键技术实现算力线性扩展[11] - 训练Pangu Ultra 135B模型时4K卡集群线性度达96%,718B稀疏模型8K卡集群线性度95.05%[13] - 理想状态下集群应实现算力与设备数量的线性增长,避免资源内耗[10] 万卡集群快速恢复 - 采用进程级重调度恢复技术将训练恢复时间缩短至3分钟内[15] - 进程级在线恢复技术针对硬件UCE故障实现30秒内恢复[15] - 算子级在线恢复技术实现网络故障下的秒级重执行,保持训练连续性[15] MoE模型推理容错 - 大EP组网架构下提出实例间切换/实例内重启/实例内无损三级容错方案[19] - 实例内快速重启技术将恢复时间从20分钟降至5分钟[20] - TOKEN级重试技术在CloudMatrix 384场景实现30-60秒实例恢复[21] 故障感知与诊断 - 构建全栈可观测能力,包括集群运行视图、网络链路监控等模块[26] - 建立全栈故障模式库,涵盖跨域诊断、计算节点诊断等能力[26] - 实时监控系统持续跟踪设备温度、算力利用率等健康指标[24] 建模仿真技术 - Sim2Train平台通过AdaptPack编排优化使训练吞吐提升4.5%-8.24%[31] - Sim2Infer推理仿真平台实现硬件指令自动化映射,平均误差6.6%[33] - 高可用仿真框架建模单步时长内的故障影响与恢复耗时[35] 框架迁移方案 - MindSpore通过MSAdapter工具覆盖90%以上PyTorch接口实现生态兼容[38] - 推理阶段支持HuggingFace权重一键部署,vLLM插件提升大模型服务能力[38] - 动态图执行通过多级流水线与JIT编译优化显著提升效率[38] 未来发展趋势 - 算法-算力-工程协同进化将形成"应用需求→硬件创新→工程反哺"闭环[39] - 算力专用化趋势下需异构加速,架构革新如光电混合将释放性能潜力[39] - AI运维等智能化手段将成为弥合系统复杂度鸿沟的关键[39]