Pangu Ultra模型

搜索文档
敢说永不掉线、秒级恢复,华为的底气是什么?
虎嗅APP· 2025-06-10 18:18
通用人工智能(AGI)与系统工程创新 - 单点技术演进边际效应递减,系统性能天花板转向系统工程上限,需通过系统工程创新实现系统效能最优[1] - 以整体视角重构路径,通过复杂系统的极致把控与再组织寻找技术突破可能,有望独立引领前沿技术发展[1] 高可用性核心基础 - 华为构建全栈可观测能力,包括集群运行视图、告警视图、网络链路监控等,提升故障感知能力[5] - 建立AI集群全系统可靠性分析模型,实现CloudMatrix超节点万卡集群MTBF大于24小时的硬件高可靠能力[6] - 提出超节点光链路软件容错方案,光模块闪断故障率容忍度>99%,新增10倍+光模块后闪断率低至电链路水平[6] 高可用性业务支撑 - 训练Pangu Ultra 135B稠密模型时,4K卡集群相比256卡基线线性度达96%;Pangu Ultra MoE 718B稀疏模型8K卡集群线性度95.05%[11] - 万卡集群训练恢复时间优化至10min以内,进程级重调度恢复缩短至3min,进程级在线恢复进一步压缩至30s[14] - 大EP推理架构采用三级容错方案,实例内重启恢复时间压缩至5min内,TOKEN级重试技术使故障影响减少60倍[16] 创新方案与未来方向 - 六大创新方案包括故障感知诊断、故障管理、光链路容错三大基础能力,以及集群线性度、训练快恢、推理快恢三大业务支撑能力[18] - 未来将在场景多元化、异构融合与资源池化、极致可观可测与智能自治免维三个方向持续探索[18]