Workflow
Atlas 800T A2
icon
搜索文档
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
第一财经· 2025-06-10 19:25
AI算力集群高可用性技术 核心观点 - AI算力集群需具备"永不罢工"能力,通过高可用性技术保障24小时稳定运行,成为驱动业务创新的可靠引擎[1] - 华为提出六大创新方案解决AI集群故障率高、恢复慢等问题,包括三大基础能力(故障感知诊断、故障管理、光链路容错)和三大业务支撑能力(集群线性度、训练快恢、推理快恢)[12] 技术方案细节 故障感知与诊断 - 行业现状:万卡级AI集群日均故障≥1次,故障定位耗时数小时至数天[2] - 华为方案: - 构建全栈可观测能力(集群运行视图/告警视图/网络链路监控等)[2] - 开发四大诊断技术(全栈故障模式库/跨域故障诊断/计算节点诊断/网络诊断)[2] - 实现千种故障模式库与分钟级故障诊断[12] 硬件可靠性提升 - 通过可靠性系统工程实现CloudMatrix超节点万卡集群MTBF>24小时[3] - 光链路容错方案: - 首创光链路软件容错技术,容忍度>99%[3] - 新增10倍光模块后闪断率降至电链路水平[3] - HBM多比特ECC故障恢复时间缩短至1min,算力损失下降5%[3] 训练效率优化 - 线性度提升技术: - 采用TACO、NSF、NB、AICT四项关键技术[4] - 实测结果: - 135B稠密模型4K卡线性度96%[6] - 718B稀疏模型8K卡线性度95.05%,4K卡线性度96.48%[6] - 训练快恢系统: - 万卡集群恢复时间<10min[7] - 进程级重调度恢复<3min,在线恢复<30s[9] - 训练回滚时间缩短至单个迭代周期[9] 推理容错方案 - 大EP组网架构下提出三级容错:实例间切换/实例内重启/实例内无损恢复[9] - 关键技术突破: - 实例内重启恢复<5min[10] - TOKEN级重试技术使HBM KV Cache故障恢复<10s,较行业标准提升60倍[10] 技术成效 - 万卡集群可用度达98%[12] - 训推恢复最快达秒级[12] - 集群线性度>95%[12]
华为昇腾产业链
是说芯语· 2025-05-17 22:08
华为昇腾产业链分析 一、整机 - 2024年中国新增算力规模约2万Pflops,2028年智算中心市场投资规模有望达2886亿元,2023年投资规模879亿元同比增长90%[3] - 全国已公布智算中心项目超300个,算力规模超50万PFlops,其中35%由互联网及云厂商建设[3] - 字节跳动和腾讯2024年分别订购23万颗英伟达AI加速器(主要为H20),2025Q1中国公司订购H20芯片价值超160亿美元[4] - 昇腾整机硬件伙伴分战略级(昆仑技术、华鲲振宇)、领先级(神州鲲泰)、优选级(长江计算等6家)、认证级(新华三等5家)[6][7][8][9][11][13][14] - 昆仑技术推出KunLun G系列AI服务器,G5680型号搭载8颗昇腾910处理器,FP16算力达1.76-2.24 PFLOPS[8][9] - 华鲲振宇"天宫"系列包含AT800推理服务器(INT8算力1120 TOPS)和AT900训练服务器(FP16算力2.56 PFLOPS)[10] 二、电源 - AI服务器供电含柜外UPS、rack内AC/DC(PSU转换48V直流)、tray内DC/DC(降压至CPU/GPU所需电压)[15][17] - GB200 NVL72机架配备48个5.5kw PSU,采用1:1冗余设计,单柜供电能力达132kW[16] - 华为Atlas 800T A2训练服务器采用4+2冗余电源设计,单模块功率2600w,搭载8颗昇腾910处理器[19] - Atlas 900 A2 PoD集群单PSU功率3kw,最大供电66kw,未来或升级至5.5kw规格[21] - 泰嘉股份为华为电源核心供应商,拥有全流程电源解决方案和智能制造体系,2023年获华为"现场改善奖二等奖"[22][23] - 杰华特量产30A-90A DrMOS及6/8/12相控制器,满足GPU/CPU大电流供电需求,单GPU板价值达130美元[24][25][26] 三、散热 - 智算中心单机柜功耗达20-80kW,液冷技术渗透加速,2023年中国市场规模86.3亿元(+26.2%),2026年预计180.1亿元[27][29] - 液冷技术分冷板式(成熟度高)、浸没式(节能优)、喷淋式(精准散热),芯片解热能力从风冷<1000W提升至相变液冷>2000W[27][31][32] - 英维克2024H1液冷业务收入同比翻倍,提供全链条液冷解决方案[34] - 申菱环境推出房间级/机柜级/元件级液冷系统,覆盖数据中心全场景温控需求[37] 四、连接 - 背板连接器需满足高速传输(224Gbps-PAM4)、高密度设计、信号完整性等要求,2025年中国市场规模将超600亿元(AI占比70%)[38][39][40] - 华丰科技开发224Gbps近芯片互连解决方案,2024H1新增专利33项,突破海外技术垄断[41]
华为昇腾产业链
傅里叶的猫· 2025-05-17 20:05
华为昇腾产业链分析 一、整机 - 2024年中国新增算力规模约2万PFlops,2028年智算中心市场投资规模预计达2886亿元,2023年市场规模879亿元同比增长90% [2] - 全国已布局300余个智算中心项目,其中约1/3项目规划算力超500PFlops,2024年投运项目超50个,60%以上为地方政府/国资项目 [2] - 互联网及云厂商建设的智算中心算力占比达35%,字节跳动和腾讯2024年分别订购23万颗英伟达AI加速器,全球采购量排名第二、第三 [3][4] - 昇腾整机硬件伙伴分为战略级(昆仑技术、华鲲振宇)、领先级(神州鲲泰)、优选级(长江计算等6家)、认证级(新华三等5家) [7][8][9][12][13][14] - 昆仑技术G5680 AI服务器搭载8颗昇腾910处理器,提供1.76-2.24 PFLOPS FP16算力,支持最大66kW供电 [8] 二、电源 - AI服务器供电采用柜外UPS、rack内PSU(AC/DC转换)、tray级DC/DC三级架构,GPU需将电压降至0.8伏特 [15][19] - GB200 NVL72机柜配备48个5.5kw PSU,采用1:1冗余设计,单柜供电能力达132kW,未来GB300可能升级至10kw PSU [16] - 华为Atlas 800T A2训练服务器采用4+2冗余电源设计,单模块功率2600w,昇腾910B若升级8卡配置将提升电源模块价值 [18] - 泰嘉股份与华为合作电源业务,其子公司获华为"2023年度现场改善奖二等奖",具备全流程电源解决方案能力 [22][23] - 杰华特量产30A-90A DrMOS及6/8/12相控制器,可满足GPU瞬态响应>1000A/us的需求,单GPU板电源芯片价值达130美元 [25][26] 三、散热 - 智算中心单机柜功耗达20-40kW(传统4-6kW),25kW以上需液冷技术,2023年中国液冷市场规模86.3亿元(+26.2%),预计2026年达180.1亿元 [27][28] - 液冷技术中冷板式占比91%(超聚变、浪潮主导),浸没式占8%(曙光数创主导),喷淋式占1% [28] - 芯片散热方案按TDP分级:<1000W用风冷,1000-2000W用单相冷板,>2000W需两相冷板/耦合液冷 [31] - 英维克2024H1液冷业务收入同比翻倍,申菱环境推出DPC相变冷却系统等产品,两家公司均受益AI算力需求爆发 [34][37] 四、连接 - 中国通信连接器市场CAGR达30-35%,2025年规模预计突破600亿元,其中AI相关连接器占比超70%(420亿元) [40] - 海外厂商垄断70-80%高端市场:TE布局新能源高压连接器,安费诺独占英伟达GB200 50%份额,安波福实现80%国产化率 [41] - 华丰科技开发224Gbps-PAM4互连解决方案,2024H1新增33项专利,有望实现国产替代 [42]