Atlas 800T A2

搜索文档
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
第一财经· 2025-06-10 19:25
AI算力集群高可用性技术 核心观点 - AI算力集群需具备"永不罢工"能力,通过高可用性技术保障24小时稳定运行,成为驱动业务创新的可靠引擎[1] - 华为提出六大创新方案解决AI集群故障率高、恢复慢等问题,包括三大基础能力(故障感知诊断、故障管理、光链路容错)和三大业务支撑能力(集群线性度、训练快恢、推理快恢)[12] 技术方案细节 故障感知与诊断 - 行业现状:万卡级AI集群日均故障≥1次,故障定位耗时数小时至数天[2] - 华为方案: - 构建全栈可观测能力(集群运行视图/告警视图/网络链路监控等)[2] - 开发四大诊断技术(全栈故障模式库/跨域故障诊断/计算节点诊断/网络诊断)[2] - 实现千种故障模式库与分钟级故障诊断[12] 硬件可靠性提升 - 通过可靠性系统工程实现CloudMatrix超节点万卡集群MTBF>24小时[3] - 光链路容错方案: - 首创光链路软件容错技术,容忍度>99%[3] - 新增10倍光模块后闪断率降至电链路水平[3] - HBM多比特ECC故障恢复时间缩短至1min,算力损失下降5%[3] 训练效率优化 - 线性度提升技术: - 采用TACO、NSF、NB、AICT四项关键技术[4] - 实测结果: - 135B稠密模型4K卡线性度96%[6] - 718B稀疏模型8K卡线性度95.05%,4K卡线性度96.48%[6] - 训练快恢系统: - 万卡集群恢复时间<10min[7] - 进程级重调度恢复<3min,在线恢复<30s[9] - 训练回滚时间缩短至单个迭代周期[9] 推理容错方案 - 大EP组网架构下提出三级容错:实例间切换/实例内重启/实例内无损恢复[9] - 关键技术突破: - 实例内重启恢复<5min[10] - TOKEN级重试技术使HBM KV Cache故障恢复<10s,较行业标准提升60倍[10] 技术成效 - 万卡集群可用度达98%[12] - 训推恢复最快达秒级[12] - 集群线性度>95%[12]
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
雷峰网· 2025-06-10 18:30
高可用性AI算力集群的核心价值 - AI算力集群作为智能应用的"超级大脑",需具备"永不罢工"能力以支撑实时路况分析、医疗影像处理等高强度任务[2] - 高可用性相当于为集群上"保险",使其既能应对日常故障又能保持突发故障下的稳定运行,避免成为"半成品"引擎[2] 故障感知与管理技术突破 - 行业现状:万卡级AI集群日均故障≥1次,故障定位耗时数小时至数天,严重影响训练效率[4] - 创新方案: - 构建全栈可观测能力(集群运行/告警视图、网络链路监控等)实现秒级故障感知[4] - 开发四大诊断技术(全栈故障模式库、跨域/计算节点/网络诊断)[4] - 建立可靠性分析模型,使CloudMatrix超节点MTBF>24小时[4] 光链路容错技术 - 首创超节点光链路软件容错方案,通过多层防护体系实现: - 光模块闪断容忍度>99%[5] - 新增10倍光模块后闪断率降至电链路水平[5][6] - HBM多比特ECC故障恢复时间缩短至1分钟,算力损失下降5%[6] 集群线性度优化 - 采用TACO、NSF等四项关键技术提升训练线性度: - Pangu Ultra 135B稠密模型在4K卡集群实现96%线性度[10] - Pangu Ultra MoE 718B稀疏模型在8K卡集群达95.05%线性度[10] 训练任务快恢系统 - 分层级恢复能力: - 万卡集群整体恢复<10分钟[12] - 进程级重调度恢复<3分钟[12] - 进程级在线恢复≤30秒[12] - 关键技术包括数据集索引加速、模型编译缓存等[12] 推理业务容错方案 - 大EP组网架构三级容错: - 实例内重启恢复<5分钟[14] - TOKEN级重试技术使HBM KV Cache故障恢复<10秒,较行业提升60倍[14] 综合技术成果 - 六大创新方案实现: - 万卡集群可用度98%[16] - 训推秒级快恢[16] - 线性度>95%[16] - 千种故障模式库与分钟级诊断[16] 未来技术方向 - 聚焦三大领域:新应用场景多元化、异构融合架构突破、智能自治工程范式[16]
敢说永不掉线、秒级恢复,华为的底气是什么?
虎嗅APP· 2025-06-10 18:18
通用人工智能(AGI)与系统工程创新 - 单点技术演进边际效应递减,系统性能天花板转向系统工程上限,需通过系统工程创新实现系统效能最优[1] - 以整体视角重构路径,通过复杂系统的极致把控与再组织寻找技术突破可能,有望独立引领前沿技术发展[1] 高可用性核心基础 - 华为构建全栈可观测能力,包括集群运行视图、告警视图、网络链路监控等,提升故障感知能力[5] - 建立AI集群全系统可靠性分析模型,实现CloudMatrix超节点万卡集群MTBF大于24小时的硬件高可靠能力[6] - 提出超节点光链路软件容错方案,光模块闪断故障率容忍度>99%,新增10倍+光模块后闪断率低至电链路水平[6] 高可用性业务支撑 - 训练Pangu Ultra 135B稠密模型时,4K卡集群相比256卡基线线性度达96%;Pangu Ultra MoE 718B稀疏模型8K卡集群线性度95.05%[11] - 万卡集群训练恢复时间优化至10min以内,进程级重调度恢复缩短至3min,进程级在线恢复进一步压缩至30s[14] - 大EP推理架构采用三级容错方案,实例内重启恢复时间压缩至5min内,TOKEN级重试技术使故障影响减少60倍[16] 创新方案与未来方向 - 六大创新方案包括故障感知诊断、故障管理、光链路容错三大基础能力,以及集群线性度、训练快恢、推理快恢三大业务支撑能力[18] - 未来将在场景多元化、异构融合与资源池化、极致可观可测与智能自治免维三个方向持续探索[18]
华为的准万亿大模型,是如何训练的?
虎嗅APP· 2025-05-30 18:18
现在,请大家一起数一下"1"、"2"。 OK,短短2秒钟时间,一个准万亿MoE大模型就已经吃透如何解一道高等数学大题了。 HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华 ...
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
华尔街见闻· 2025-05-30 17:38
现在,请大家一起 数一下"1"、"2" 。 OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经吃透如何解一道 高等数学大题 了! 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通 过 " 昇腾+Pan gu Ultra MoE" 这套 组合拳解锁的效果—— 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行 业领先水平。 有多领先?来看一组数据: 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 值得一提的是,华为还 首次 把背后的一大秘籍给亮了出来。 具体来说,华为在这次发布的 技术报告 中,披露了在昇腾CloudMatrix 384超节点上,高效打通 大稀疏比MoE强化学习后训练框架的关键技术。 此举可以说是让以强化学习(RL)为核心机制的后训练,进入到了超节点集群时代。 不用GPU的"炼"准万亿大模型方法 在深入华为Pangu Ultra MoE训练系统全流程之前,老规矩,我们还是先来了解一下此前的技术 痛点。 整体 ...
华为AI实力!不用GPU,大模型每2秒吃透一道高数大题!
第一财经· 2025-05-30 17:32
现在,请大家一起 数一下"1"、"2" 。 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通过 "昇腾+Pangu Ultra MoE" 这套组合拳解锁的效果—— OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经 吃透 如何解一道 高等数学大题 了! 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行业领先 水平。 有多领先?来看一组数据: · 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% · 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 不用GPU的"炼"准万亿大模型方法 在深入华为Pangu Ultra MoE训练系统全流程之前,老规矩,我们还是先来了解一下此前的技术痛点。 整体来看,在当前的MoE预训练和强化学习后训练过程中所存在的挑战可以归结为六点: · 并行策略配置困难 :面对数据并行、张量并行、专家并行、流水线并行和序列并行等多种策略的组合 选择,加上稀疏激活导致的负载不平衡因素,很难通过人工经验找到最优的并行配置方案。 · All-to-All通信 ...
华为昇腾产业链
是说芯语· 2025-05-17 22:08
以下文章来源于傅里叶的猫 ,作者小小 傅里叶的猫 . 芯片EDA大厂资深工程师,半导体AI行业解读及研报分享 申请入围"中国IC独角兽" | 资本开支(亿元)2001 2002 2003 2004 2101 2102 2103 2104 2201 2202 2204 2301 2301 2301 2301 2401 2402 2403 | 2404 | 87 | 77 | 70 | 57 | 87 | 171 | 腾讯 | 62 | તેર | 97 | 69 | 71 | 117 | 30 | 24 | 44 | 40 | 80 | 75 | 144 | 366 | | | | | | | | | | | | | | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | ...
华为昇腾产业链
傅里叶的猫· 2025-05-17 20:05
华为昇腾产业链分析 一、整机 - 2024年中国新增算力规模约2万PFlops,2028年智算中心市场投资规模预计达2886亿元,2023年市场规模879亿元同比增长90% [2] - 全国已布局300余个智算中心项目,其中约1/3项目规划算力超500PFlops,2024年投运项目超50个,60%以上为地方政府/国资项目 [2] - 互联网及云厂商建设的智算中心算力占比达35%,字节跳动和腾讯2024年分别订购23万颗英伟达AI加速器,全球采购量排名第二、第三 [3][4] - 昇腾整机硬件伙伴分为战略级(昆仑技术、华鲲振宇)、领先级(神州鲲泰)、优选级(长江计算等6家)、认证级(新华三等5家) [7][8][9][12][13][14] - 昆仑技术G5680 AI服务器搭载8颗昇腾910处理器,提供1.76-2.24 PFLOPS FP16算力,支持最大66kW供电 [8] 二、电源 - AI服务器供电采用柜外UPS、rack内PSU(AC/DC转换)、tray级DC/DC三级架构,GPU需将电压降至0.8伏特 [15][19] - GB200 NVL72机柜配备48个5.5kw PSU,采用1:1冗余设计,单柜供电能力达132kW,未来GB300可能升级至10kw PSU [16] - 华为Atlas 800T A2训练服务器采用4+2冗余电源设计,单模块功率2600w,昇腾910B若升级8卡配置将提升电源模块价值 [18] - 泰嘉股份与华为合作电源业务,其子公司获华为"2023年度现场改善奖二等奖",具备全流程电源解决方案能力 [22][23] - 杰华特量产30A-90A DrMOS及6/8/12相控制器,可满足GPU瞬态响应>1000A/us的需求,单GPU板电源芯片价值达130美元 [25][26] 三、散热 - 智算中心单机柜功耗达20-40kW(传统4-6kW),25kW以上需液冷技术,2023年中国液冷市场规模86.3亿元(+26.2%),预计2026年达180.1亿元 [27][28] - 液冷技术中冷板式占比91%(超聚变、浪潮主导),浸没式占8%(曙光数创主导),喷淋式占1% [28] - 芯片散热方案按TDP分级:<1000W用风冷,1000-2000W用单相冷板,>2000W需两相冷板/耦合液冷 [31] - 英维克2024H1液冷业务收入同比翻倍,申菱环境推出DPC相变冷却系统等产品,两家公司均受益AI算力需求爆发 [34][37] 四、连接 - 中国通信连接器市场CAGR达30-35%,2025年规模预计突破600亿元,其中AI相关连接器占比超70%(420亿元) [40] - 海外厂商垄断70-80%高端市场:TE布局新能源高压连接器,安费诺独占英伟达GB200 50%份额,安波福实现80%国产化率 [41] - 华丰科技开发224Gbps-PAM4互连解决方案,2024H1新增33项专利,有望实现国产替代 [42]