超节点互联技术
搜索文档
华为一口气发布多款芯片
半导体行业观察· 2025-09-19 09:29
昇腾AI芯片路线图 - 重申四大战略方向:坚持昇腾硬件变现、CANN编译器及虚拟指令集接口开放(其他软件全开源)、Mind系列应用使能套件及工具链全面开源、openPangu基础大模型全面开源,多项开源计划于2025年12月31日前完成 [2] - 未来三年规划三个芯片系列:即将推出的Ascend 950系列(含950PR和950DT两颗芯片)、以及规划中的Ascend 960和Ascend 970系列 [3] - Ascend 950系列实现根本性提升:新增支持FP8/MXFP8/MXFP4/HiF8等低精度格式,算力达1P/2P FLOPS;大幅提升向量算力;互联带宽相比910C提升2.5倍至2TB/s;自研两种HBM(HiBL 1.0和HiZQ 2.0)与Die合封,分别面向Prefill/推荐场景和Decode/训练场景 [3][4][5] - Ascend 950PR芯片采用自研低成本HBM(HiBL 1.0),面向推理Prefill阶段和推荐业务,计划2026年一季度推出 [5] - Ascend 950DT芯片采用自研HiZQ 2.0 HBM,内存容量144GB,访问带宽4TB/s,互联带宽2TB/s,面向推理Decode和训练场景,计划2026年四季度推出 [6] - Ascend 960芯片各项规格相比950翻倍,支持自研HiF4数据格式,计划2027年四季度推出 [6] - Ascend 970芯片规划FP4/FP8算力及互联带宽全面翻倍,内存访问带宽至少增加1.5倍,计划2028年四季度推出,实现几乎一年一代算力翻倍的演进速度 [7][12] Atlas超节点产品发布 - Atlas 900超节点满配384颗Ascend 910C芯片,最大算力300 PFLOPS,截至2025年已部署超300套,服务20多个客户 [8] - 发布基于Ascend 950DT的Atlas 950超节点:支持8192张昇腾卡,由160个机柜组成,占地面积约1000平方米,FP8算力8E FLOPS,FP4算力16E FLOPS,互联带宽16PB/s(超全球互联网峰值带宽10倍),计划2026年四季度上市 [9] - Atlas 950超节点对比英伟达NVL144:卡规模为其56.8倍,总算力为其6.7倍,内存容量1152TB为其15倍,互联带宽16.3PB/s为其62倍;相比Atlas 900,训练性能提升17倍至4.91M TPS,推理性能提升26.5倍至19.6M TPS [10] - 发布基于Ascend 960的Atlas 960超节点:最大支持15488卡,由220个机柜组成,占地面积约2200平方米,FP8总算力30E FLOPS,FP4总算力60E FLOPS,内存容量4460TB,互联带宽34PB/s,训练/推理性能相比Atlas 950提升3倍/4倍以上至15.9M TPS/80.5M TPS,计划2027年四季度上市 [11][13] 鲲鹏处理器与通用计算超节点 - 鲲鹏处理器围绕支持超节点、多核高性能方向演进,2026年一季度将推出Kunpeng 950处理器,含96核/192线程和192核/384线程两个版本,支持通用计算超节点,新增四层隔离实现机密计算 [14] - 发布全球首个通用计算超节点TaiShan 950:基于Kunpeng 950打造,最大支持16节点32个处理器,最大内存48TB,支持内存/SSD/DPU池化,计划2026年一季度上市 [16] - TaiShan 950结合GaussDB多写架构,无需分布式改造即可实现性能提升2.9倍,平滑替代大型机/小型机及Oracle Exadata;在虚拟化环境内存利用率提升20%,Spark大数据场景实时处理时间缩短30% [16][17] - 提出混合超节点概念:结合TaiShan 950和Atlas 950,构建PB级共享内存池支持超高维度用户特征,并提供超大AI算力支持超低时延推理,为下一代生成式推荐系统提供新架构 [17] 超节点互联技术突破 - 攻克大规模超节点互联两大挑战:通过系统性创新实现长距离(超200米)高可靠光互联(可靠性提升100倍)以及大带宽(TB级)低时延(2.1微秒)互联 [18][19] - 推出超节点互联协议“灵衢”(UB - UnifiedBus),具备总线级互联、平等协同等六大特征;灵衢1.0已随Atlas 900商用部署300多套,Atlas 950基于灵衢2.0,华为将开放灵衢2.0以共建生态 [19][20] - 超节点架构核心价值为“万卡超节点,一台计算机”,通过灵衢协议将数万计算卡联接成一体工作 [19] 超级计算集群规划 - 发布Atlas 950 SuperCluster集群:由64个Atlas 950超节点互联组成,集成52万多片昇腾950DT卡,FP8总算力524E FLOPS,支持UBoE与RoCE协议(推荐UBoE),计划2026年四季度上市 [21] - Atlas 950 SuperCluster集群规模为xAI Colossus的2.5倍,算力为其1.3倍,支持千亿至十万亿参数大模型训练 [22] - 规划Atlas 960 SuperCluster集群:规模达百万卡级,FP8总算力2 ZFLOPS,FP4总算力4 ZFLOPS,支持UBoE与RoCE,计划2027年四季度推出 [22]
华为发布算力超节点和集群
人民网· 2025-09-18 20:39
核心观点 - 华为发布算力超节点和集群产品 旨在通过超节点互联技术引领AI基础设施新范式 满足持续增长的算力需求 [1][2][3] 产品发布 - 推出Atlas 950 SuperPoD超节点支持8192张昇腾卡 Atlas 960 SuperPoD超节点支持15488张昇腾卡 在卡规模/总算力/内存容量/互联带宽等关键指标全面领先 [2] - 基于超节点发布Atlas 950 SuperCluster集群算力规模超50万卡 Atlas 960 SuperCluster集群算力规模达百万卡 [2] - 将超节点技术引入通用计算领域 发布TaiShan 950 SuperPoD通用计算超节点 结合GaussDB分布式数据库可取代大型机/小型机及Exadata数据库一体机 [2] 技术突破 - 通过系统性创新突破大规模超节点互联技术挑战 开创面向超节点的互联协议灵衢(UnifiedBus) [3] - 开放灵衢2.0技术规范 邀请产业界伙伴基于灵衢研发相关产品和部件 共建开放生态 [3] 战略定位 - 基于中国可获得的芯片制造工艺打造超节点+集群算力解决方案 为人工智能长期快速发展提供可持续且充裕算力 [2] - 通过超节点互联技术引领AI基础设施新范式 推动人工智能持续发展创造更大价值 [3]