Workflow
AI算力集群
icon
搜索文档
华为如何驯服AI算力「巨兽」?
虎嗅APP· 2025-06-09 20:54
通用人工智能(AGI)与系统工程创新 - 单点技术演进边际效应递减,系统性能天花板转向系统工程上限,需通过系统工程创新实现效能最优[1] - 华为推出《华为技术披露集》系列,首次全面详述技术细节,助力昇腾生态在中国发展[1][2] 万卡集群技术 - AI算力集群将上万台计算机整合为"算力航空母舰",解决协同工作、高效运行和快速修复等世界级难题[3] - 华为团队提出拓扑感知协同编排技术TACO等四项关键技术,训练Pangu Ultra 135B稠密模型时4K卡集群线性度达96%[8] 超节点高可用 - 算力集群采用"系统层容错"、"业务层容错"和"运维层容错"方案,将故障转为亚健康问题,确保24小时不间断运行[5][6] - CloudMatrix 384超节点通过超时代答欺骗OS和网络路由切换,避免系统级故障[6] 集群线性度 - 华为技术实现盘古模型训练线性度提升,8K卡A2集群训练Pangu Ultra MoE 718B稀疏模型时线性度达95.05%[8] 万卡集群训练快速恢复 - 进程级重调度恢复技术将训练恢复时间缩短至3分钟以内,进程级在线恢复技术进一步缩短至30秒以内[10][11] - 算子级在线恢复技术实现网络故障影响的通信算子秒级重执行,训练任务不中断[11] 超大规模MoE模型推理恢复 - 三级容错方案实现实例间切换、实例内重启恢复和实例内无损恢复,实例恢复时间从20分钟降至5分钟[13] - TOKEN级重试技术在CloudMatrix 384超节点场景下实现30~60秒实例恢复[13] 故障管理与感知诊断 - 华为提供昇腾AI硬件灾备高可靠架构设计,涵盖故障隔离、容错能力和故障预测等[15] - 全栈可观测能力和故障诊断技术实现大规模集群在线故障感知和诊断[16] 建模仿真 - 马尔科夫建模仿真平台实现训练、推理和高可用领域的多维度建模分析,训练吞吐提升4.5%-8.24%[18][19] - 推理建模仿真平台平均误差低至6.6%,高可用建模仿真框架实现全周期监控仿真[19] 框架迁移 - 昇思MindSpore构建MSAdapter生态适配工具,覆盖90%以上PyTorch接口,实现第三方框架无缝迁移[21] - 推理阶段支持HuggingFace权重配置一键部署,实现盘古72B模型推理性能提升[21] 未来展望 - 算力基础设施将形成"应用需求→硬件创新→工程反哺"闭环,实现高效、弹性、自愈的下一代系统[23]
独家揭秘!华为如何让万台AI服务器秒变「超级大脑」
第一财经· 2025-06-09 17:01
AI算力集群的关键特性 - AI算力集群通过连接上万台甚至几十万台计算机形成"算力航空母舰",以应对万亿参数大模型的计算需求[1] - 需要解决协同工作、高效运行和快速修复等世界级难题[1] 超节点高可用 - 算力集群采用"备用替身"机制,确保单台机器故障时任务无缝接管,避免全盘停止[3] - 华为提出系统层、业务层和运维层三级容错方案,将故障转为亚健康问题并优雅消除[3][4] 集群线性度 - 理想情况下算力应随计算机数量线性增长,华为通过精密任务分配算法实现接近完美的线性度[6] - 实验显示训练Pangu Ultra 135B模型时4K卡集群线性度达96%,Pangu Ultra MoE 718B模型8K卡集群线性度达95.05%[8] 万卡集群训练快速恢复 - 系统具备"存档功能",可在设备故障时从最新进度恢复,避免从头训练[10] - 华为创新技术将训练恢复时间缩短至3分钟内,部分场景可达30秒内[11] 超大规模MoE模型推理恢复 - 大EP组网架构下硬件故障可能导致整个推理实例不可用[13] - 华为三级容错方案将实例恢复时间从20分钟降至5分钟,TOKEN级重试实现30~60秒恢复[15] 故障管理与感知诊断 - 实时监控系统持续监测设备健康状态,快速定位并修复故障[17] - 华为提供完整的硬件灾备高可靠架构设计和RAS统一故障管理框架[17] 建模仿真 - 虚拟环境"数字化风洞"可预测模型真实表现,提前发现系统瓶颈[19] - 华为马尔科夫建模仿真平台在训练、推理和高可用领域实现系统性建模分析[19][20] 框架迁移 - 昇思MindSpore框架覆盖90%以上PyTorch接口,实现第三方框架无缝迁移[22] - 推理阶段支持HuggingFace权重一键部署,实现盘古72B模型推理性能提升[22] 总结与展望 - 华为在算力集群多个维度提出创新方案,形成完整技术体系[24] - 未来算力基础设施将走向算法-算力-工程协同进化,形成需求-创新-反哺闭环[24]
华为昇腾万卡集群揭秘:如何驯服AI算力「巨兽」?
机器之心· 2025-06-09 12:33
AI算力集群的核心作用 - AI算力集群通过连接上万台甚至几十万台计算机形成"算力航空母舰",支撑大模型训练和复杂AI任务处理[3] - 单台计算机算力无法满足万亿参数大模型需求,集群化方案解决算力瓶颈问题[3] - 集群需要解决设备协同工作、故障容错、训练中断恢复等世界级工程难题[4] 超节点高可用技术 - 采用系统层/业务层/运维层三级容错方案,将故障转为亚健康状态并通过运维手段消除[7][8] - 系统层通过超时代答欺骗OS和网络路由切换防止系统级故障[7] - 业务层实现租户无感知的网络闪断重试,运维层构筑亚健康感知和优雅恢复技术[8] 集群线性度优化 - 通过拓扑感知协同编排(TACO)、网存算融合(NSF)等四项关键技术实现算力线性扩展[11] - 训练Pangu Ultra 135B模型时4K卡集群线性度达96%,718B稀疏模型8K卡集群线性度95.05%[13] - 理想状态下集群应实现算力与设备数量的线性增长,避免资源内耗[10] 万卡集群快速恢复 - 采用进程级重调度恢复技术将训练恢复时间缩短至3分钟内[15] - 进程级在线恢复技术针对硬件UCE故障实现30秒内恢复[15] - 算子级在线恢复技术实现网络故障下的秒级重执行,保持训练连续性[15] MoE模型推理容错 - 大EP组网架构下提出实例间切换/实例内重启/实例内无损三级容错方案[19] - 实例内快速重启技术将恢复时间从20分钟降至5分钟[20] - TOKEN级重试技术在CloudMatrix 384场景实现30-60秒实例恢复[21] 故障感知与诊断 - 构建全栈可观测能力,包括集群运行视图、网络链路监控等模块[26] - 建立全栈故障模式库,涵盖跨域诊断、计算节点诊断等能力[26] - 实时监控系统持续跟踪设备温度、算力利用率等健康指标[24] 建模仿真技术 - Sim2Train平台通过AdaptPack编排优化使训练吞吐提升4.5%-8.24%[31] - Sim2Infer推理仿真平台实现硬件指令自动化映射,平均误差6.6%[33] - 高可用仿真框架建模单步时长内的故障影响与恢复耗时[35] 框架迁移方案 - MindSpore通过MSAdapter工具覆盖90%以上PyTorch接口实现生态兼容[38] - 推理阶段支持HuggingFace权重一键部署,vLLM插件提升大模型服务能力[38] - 动态图执行通过多级流水线与JIT编译优化显著提升效率[38] 未来发展趋势 - 算法-算力-工程协同进化将形成"应用需求→硬件创新→工程反哺"闭环[39] - 算力专用化趋势下需异构加速,架构革新如光电混合将释放性能潜力[39] - AI运维等智能化手段将成为弥合系统复杂度鸿沟的关键[39]