AI算力集群技术演进 - AI算力集群通过整合上万台计算机形成"算力航空母舰",以应对万亿参数大模型的计算需求,单机算力已无法满足复杂AI任务[1] - 集群需解决三大核心挑战:设备协同工作、故障时高效运行、训练中断快速修复,华为团队通过工程创新实现技术突破[1] 超节点高可用技术 - 采用"系统层-业务层-运维层"三级容错方案,将故障转为亚健康问题,通过超时代答欺骗OS和网络路由切换防止系统级故障[1] - 在CloudMatrix 384超节点中实现租户无感知的网络闪断重试,运维层通过亚健康感知技术主动消除故障影响[1] 集群线性度优化 - 提出TACO、NSF、NB、AICT四项关键技术,实现算力规模与性能的线性增长,PanGu Ultra 135B模型在4K卡集群实现96%线性度[1] - PanGu Ultra MoE 718B稀疏模型在8K卡集群线性度达95.05%,4K卡CloudMatrix集群线性度达96.48%[1] 万卡训练快速恢复 - 进程级重调度恢复技术将训练恢复时间缩短至3分钟内,在线恢复技术针对硬件UCE故障实现30秒内恢复[1] - 算子级在线恢复通过HCCL算子重试实现网络故障秒级恢复,训练任务不中断[1] MoE模型推理容错 - 三级容错方案实现实例间切换/重启/无损恢复,实例恢复时间从20分钟降至5分钟[1] - TOKEN级重试技术在CloudMatrix 384场景下实现30-60秒实例恢复,减卡弹性恢复技术实现秒级无感知恢复[1] 故障感知与诊断 - 构建全栈可观测能力,包含集群运行视图、网络链路监控等模块,实现硬件故障实时监测[1] - 建立全栈故障模式库,涵盖跨域诊断、计算节点诊断、网络诊断等技术,提升故障定位效率[1] 数字化仿真建模 - Sim2Train平台通过AdaptPack编排优化长序列PP空泡,吞吐提升4.5%-8.24%,AdaptS/R技术缩短单步时长3.25%[1][2] - Sim2Infer推理仿真平台实现硬件指令自动化映射,平均误差仅6.6%,Sim2Availability框架可模拟复杂系统故障场景[1][2] 框架迁移与生态兼容 - MindSpore构建MSAdapter工具覆盖90%以上PyTorch接口,通过多级流水线技术提升动态图执行效率[1] - 推理阶段兼容HuggingFace权重配置,vLLM-MindSpore插件支持大模型服务化,实现盘古72B模型快速部署[1] 未来技术演进方向 - 算法-算力-工程协同进化将形成"应用需求→硬件创新→工程反哺"闭环,光电混合架构释放性能潜力[1] - 智能化工程手段如AI运维将弥合系统复杂度,推动高效、弹性、自愈的下一代算力基础设施发展[1]
让算力航母稳健远航,华为首次披露昇腾算力基础设施的压舱石
21世纪经济报道·2025-06-09 20:08