Atlas 800T A2

搜索文档

第一财经· 2025-06-10 19:25

AI算力集群高可用性技术核心观点 - AI算力集群需具备"永不罢工"能力，通过高可用性技术保障24小时稳定运行，成为驱动业务创新的可靠引擎[1] - 华为提出六大创新方案解决AI集群故障率高、恢复慢等问题，包括三大基础能力（故障感知诊断、故障管理、光链路容错）和三大业务支撑能力（集群线性度、训练快恢、推理快恢）[12] 技术方案细节故障感知与诊断 - 行业现状：万卡级AI集群日均故障≥1次，故障定位耗时数小时至数天[2] - 华为方案： - 构建全栈可观测能力（集群运行视图/告警视图/网络链路监控等）[2] - 开发四大诊断技术（全栈故障模式库/跨域故障诊断/计算节点诊断/网络诊断）[2] - 实现千种故障模式库与分钟级故障诊断[12] 硬件可靠性提升 - 通过可靠性系统工程实现CloudMatrix超节点万卡集群MTBF>24小时[3] - 光链路容错方案： - 首创光链路软件容错技术，容忍度>99%[3] - 新增10倍光模块后闪断率降至电链路水平[3] - HBM多比特ECC故障恢复时间缩短至1min，算力损失下降5%[3] 训练效率优化 - 线性度提升技术： - 采用TACO、NSF、NB、AICT四项关键技术[4] - 实测结果： - 135B稠密模型4K卡线性度96%[6] - 718B稀疏模型8K卡线性度95.05%，4K卡线性度96.48%[6] - 训练快恢系统： - 万卡集群恢复时间<10min[7] - 进程级重调度恢复<3min，在线恢复<30s[9] - 训练回滚时间缩短至单个迭代周期[9] 推理容错方案 - 大EP组网架构下提出三级容错：实例间切换/实例内重启/实例内无损恢复[9] - 关键技术突破： - 实例内重启恢复<5min[10] - TOKEN级重试技术使HBM KV Cache故障恢复<10s，较行业标准提升60倍[10] 技术成效 - 万卡集群可用度达98%[12] - 训推恢复最快达秒级[12] - 集群线性度>95%[12]

AI算力集群

高可用性

Telecommunications Equipment

Telecommunications Equipment

是说芯语· 2025-05-17 22:08

华为昇腾产业链分析一、整机 - 2024年中国新增算力规模约2万Pflops，2028年智算中心市场投资规模有望达2886亿元，2023年投资规模879亿元同比增长90%[3] - 全国已公布智算中心项目超300个，算力规模超50万PFlops，其中35%由互联网及云厂商建设[3] - 字节跳动和腾讯2024年分别订购23万颗英伟达AI加速器（主要为H20），2025Q1中国公司订购H20芯片价值超160亿美元[4] - 昇腾整机硬件伙伴分战略级（昆仑技术、华鲲振宇）、领先级（神州鲲泰）、优选级（长江计算等6家）、认证级（新华三等5家）[6][7][8][9][11][13][14] - 昆仑技术推出KunLun G系列AI服务器，G5680型号搭载8颗昇腾910处理器，FP16算力达1.76-2.24 PFLOPS[8][9] - 华鲲振宇"天宫"系列包含AT800推理服务器（INT8算力1120 TOPS）和AT900训练服务器（FP16算力2.56 PFLOPS）[10] 二、电源 - AI服务器供电含柜外UPS、rack内AC/DC（PSU转换48V直流）、tray内DC/DC（降压至CPU/GPU所需电压）[15][17] - GB200 NVL72机架配备48个5.5kw PSU，采用1:1冗余设计，单柜供电能力达132kW[16] - 华为Atlas 800T A2训练服务器采用4+2冗余电源设计，单模块功率2600w，搭载8颗昇腾910处理器[19] - Atlas 900 A2 PoD集群单PSU功率3kw，最大供电66kw，未来或升级至5.5kw规格[21] - 泰嘉股份为华为电源核心供应商，拥有全流程电源解决方案和智能制造体系，2023年获华为"现场改善奖二等奖"[22][23] - 杰华特量产30A-90A DrMOS及6/8/12相控制器，满足GPU/CPU大电流供电需求，单GPU板价值达130美元[24][25][26] 三、散热 - 智算中心单机柜功耗达20-80kW，液冷技术渗透加速，2023年中国市场规模86.3亿元（+26.2%），2026年预计180.1亿元[27][29] - 液冷技术分冷板式（成熟度高）、浸没式（节能优）、喷淋式（精准散热），芯片解热能力从风冷<1000W提升至相变液冷>2000W[27][31][32] - 英维克2024H1液冷业务收入同比翻倍，提供全链条液冷解决方案[34] - 申菱环境推出房间级/机柜级/元件级液冷系统，覆盖数据中心全场景温控需求[37] 四、连接 - 背板连接器需满足高速传输（224Gbps-PAM4）、高密度设计、信号完整性等要求，2025年中国市场规模将超600亿元（AI占比70%）[38][39][40] - 华丰科技开发224Gbps近芯片互连解决方案，2024H1新增专利33项，突破海外技术垄断[41]

傅里叶的猫· 2025-05-17 20:05

华为昇腾产业链分析一、整机 - 2024年中国新增算力规模约2万PFlops，2028年智算中心市场投资规模预计达2886亿元，2023年市场规模879亿元同比增长90% [2] - 全国已布局300余个智算中心项目，其中约1/3项目规划算力超500PFlops，2024年投运项目超50个，60%以上为地方政府/国资项目 [2] - 互联网及云厂商建设的智算中心算力占比达35%，字节跳动和腾讯2024年分别订购23万颗英伟达AI加速器，全球采购量排名第二、第三 [3][4] - 昇腾整机硬件伙伴分为战略级（昆仑技术、华鲲振宇）、领先级（神州鲲泰）、优选级（长江计算等6家）、认证级（新华三等5家） [7][8][9][12][13][14] - 昆仑技术G5680 AI服务器搭载8颗昇腾910处理器，提供1.76-2.24 PFLOPS FP16算力，支持最大66kW供电 [8] 二、电源 - AI服务器供电采用柜外UPS、rack内PSU（AC/DC转换）、tray级DC/DC三级架构，GPU需将电压降至0.8伏特 [15][19] - GB200 NVL72机柜配备48个5.5kw PSU，采用1:1冗余设计，单柜供电能力达132kW，未来GB300可能升级至10kw PSU [16] - 华为Atlas 800T A2训练服务器采用4+2冗余电源设计，单模块功率2600w，昇腾910B若升级8卡配置将提升电源模块价值 [18] - 泰嘉股份与华为合作电源业务，其子公司获华为"2023年度现场改善奖二等奖"，具备全流程电源解决方案能力 [22][23] - 杰华特量产30A-90A DrMOS及6/8/12相控制器，可满足GPU瞬态响应>1000A/us的需求，单GPU板电源芯片价值达130美元 [25][26] 三、散热 - 智算中心单机柜功耗达20-40kW（传统4-6kW），25kW以上需液冷技术，2023年中国液冷市场规模86.3亿元（+26.2%），预计2026年达180.1亿元 [27][28] - 液冷技术中冷板式占比91%（超聚变、浪潮主导），浸没式占8%（曙光数创主导），喷淋式占1% [28] - 芯片散热方案按TDP分级：<1000W用风冷，1000-2000W用单相冷板，>2000W需两相冷板/耦合液冷 [31] - 英维克2024H1液冷业务收入同比翻倍，申菱环境推出DPC相变冷却系统等产品，两家公司均受益AI算力需求爆发 [34][37] 四、连接 - 中国通信连接器市场CAGR达30-35%，2025年规模预计突破600亿元，其中AI相关连接器占比超70%（420亿元） [40] - 海外厂商垄断70-80%高端市场：TE布局新能源高压连接器，安费诺独占英伟达GB200 50%份额，安波福实现80%国产化率 [41] - 华丰科技开发224Gbps-PAM4互连解决方案，2024H1新增33项专利，有望实现国产替代 [42]