Workflow
TaiShan 950超节点
icon
搜索文档
华为超节点赶超英伟达:驾驭“光”很关键
观察者网· 2026-02-10 11:20
行业背景与需求 - 当前算力需求远未被满足,大模型进入生产系统及消费端导致token消耗量呈指数级增长,未来中国每日token消耗量可能突破千万亿 [3] - 简单堆砌服务器和芯片无法有效解决算力缺口,根据Meta论文,万卡集群训练时算力利用率仅约38%,存在高达62%的算力浪费,且模型训练每3小时中断一次 [3] - 集群网络通信已成为大模型训练和推理的主要挑战,计算单元间通信不畅会导致NPU闲置,造成效率低下,出现1+1<2的结果 [3] 超节点的定义与核心特点 - 超节点是对传统计算架构的重构,从以CPU为中心转变为全平等互联架构,CPU、NPU和内存单元无需经过CPU即可直接互联,提升了通信效率 [4] - 真正的超节点需具备三大关键特点:足够大的带宽以确保计算不等待通信、足够低的时延、形成逻辑上的单一系统,其核心在于内存的统一编址 [6] - 统一内存编址技术是实现超节点的关键,它使内存能够池化,从而实现计算单元间的数据快速交换,提升计算效率 [6] 超节点的性能优势 - 超节点相比传统集群的最大优势是显著提升计算效率,可将模型算力利用率从30%提升至45%,相当于性能提升50% [7] - 在摩尔定律放缓、芯片制程从7纳米到3纳米每代性能提升不超过20%的背景下,超节点通过高效资源调度,能在一定程度上弥补芯片工艺的代差 [7] 华为超节点的技术实现与创新 - 华为昇腾384超节点由12个计算柜和4个总线柜构成,其核心创新在于采用光通信技术实现超高速互联,突破了电信号传输距离(通常2-5米)的限制,从而能够规模商用384颗芯片互联,并未来支持8192颗芯片互联 [8] - 光模块技术面临成本高、对环境敏感(如灰尘、温度变化易导致闪断)等挑战,实现如电一般可靠、如光一般长距离传输难度很大 [8] - 华为凭借系统化创新实现了全光互联超节点,其能力源于自研芯片、光器件、底层协议以及在光通信领域超过20年的全球领先技术积累 [9] - 华为构建了新型互联协议“灵衢UB”(UnifiedBus),并将灵衢2.0规范开放,其基础协议长达600页,是业界最详细完整的协议,旨在与产业界共创繁荣生态 [11][12] 华为超节点的产品布局 - 华为不仅在发展智算超节点(如昇腾384),也在发展通算超节点,例如基于鲲鹏950处理器的TaiShan 950超节点,这是全球首个通用计算超节点,计划于2026年一季度上市 [9] - TaiShan 950超节点结合分布式GaussDB数据库,旨在取代各种应用场景的大型机、小型机以及Oracle的Exadata数据库服务器 [9] - 无论是智算还是通算超节点,其核心目标都是让大量服务器像一台计算机一样工作,提供超大带宽、超低时延和统一内存编址能力 [11] 软件生态与产业共建 - 支撑超节点运行的不仅有硬件,还包括大量软件生态,如异构计算架构CANN、操作系统openEuler、数据库openGauss、AI框架MindSpore等 [14] - 华为坚持软件开源开放,截至2025年8月,鲲鹏注册开发者达380万,昇腾开发者近400万,并将CANN从底层运行时到开发语言、算子库等完整开源 [14] - openEuler是业界首个面向超节点的开源操作系统,华为通过开放核心技术与产业协同共创,以应对AI时代快速迭代的挑战 [14]
华为打造“最强超节点”,这项全球领先技术很关键
观察者网· 2026-02-10 11:10
文章核心观点 - 超节点是AI算力基础设施的重要革新,其核心价值在于通过重构计算架构(如全平等互联、统一内存编址)来显著提升算力利用率,而非简单的硬件堆砌 [1][4][7] - 华为凭借在光通信等领域的系统化创新能力,实现了大规模芯片(如384颗昇腾芯片)的高效互联,并计划将技术开放以构建产业生态 [8][9][11][12] - 算力需求(如中国每日token消耗量可能突破千万亿)正指数级增长,但传统集群存在严重效率问题(如万卡集群算力利用率仅约38%),这凸显了超节点技术的必要性 [3][7] 行业背景与需求 - AI算力需求远未被满足,大模型在生产系统和消费端的token消耗量正指数级增长,未来中国每日token消耗量可能突破千万亿 [3] - 传统通过大量建设服务器集群“堆卡”的方式存在巨大效率瓶颈,例如Meta论文指出万卡集群训练时算力利用率仅约38%,会造成62%的算力浪费,且模型训练每3小时中断一次 [3] - 集群网络通信已成为大模型训练和推理的最大挑战,以混合专家模型(MoE)为例,计算单元间通信不畅会导致NPU闲置,造成1+1<2的效率损失 [3] 超节点的技术定义与优势 - 超节点是对传统以CPU为中心的计算架构的重构,变为全平等互联架构,CPU、NPU、内存单元无需经过CPU即可直接互联,提高了通信效率 [4] - 真正的超节点须具备三个关键特点:足够大的带宽(让计算不等待通信)、足够低的时延、形成逻辑上的单一系统(关键在于内存统一编址) [6] - 统一内存编址技术是实现超节点的核心,它使内存能够池化,实现计算单元间的数据快速交换,类似于图书馆的书籍编址检索,与传统集群“寄快递”式的信息传递方式有本质区别 [6] - 超节点能显著提升计算效率,可将模型算力利用率从30%提升到45%,相当于提升50%,这在一定程度上可以弥补芯片工艺代差(如7纳米到3纳米每代性能提升不超过20%)带来的挑战 [7] 华为超节点的技术实现与创新 - 华为昇腾384超节点由12个计算柜和4个总线柜构成,其大规模互联(384颗芯片)的核心在于采用了光通信技术,而非业界常见的全铜线电信号架构 [8] - 电信号传输距离受限(通常只能在一个机柜内传送2到5米),而光通信技术使华为能够跳出单个机柜限制,实现384颗芯片互联,并计划未来支持8192颗芯片互联 [8] - 光模块技术挑战大,存在成本高、对环境敏感(灰尘、温度变化易导致闪断)等问题,华为凭借在光通信领域过去20年全球第一的技术积累和系统化创新能力(自研芯片、光器件、底层协议),实现了可靠的全光互联超节点 [8][9] - 华为构建了新型互联协议“灵衢UB(UnifiedBus)”,并将其灵衢2.0规范(基础协议达600页)完全开放,旨在让产业界伙伴能借此技术打造自己的超节点,共创繁荣生态 [11][12] 产品布局与生态建设 - 华为不仅在发展智算超节点(如昇腾系列),也在发展通算超节点,例如基于鲲鹏950处理器的TaiShan 950超节点,这是全球首个通用计算超节点,计划在2026年一季度上市 [9] - TaiShan 950超节点结合分布式GaussDB数据库,旨在取代各种应用场景的大型机、小型机以及Oracle的Exadata数据库服务器 [9] - 华为坚持软件开源开放以共建生态,其鲲鹏有380万注册开发者,昇腾有近400万开发者,并于2025年8月将异构计算架构CANN完全开源,openEuler是业界首个面向超节点的开源操作系统 [14] - 开放软件栈(包括CANN、openEuler、openGauss、MindSpore)旨在让开发者能基于此进行业务创新,华为认为AI时代需协同共创、开放共生 [14]
计算筑基,华为以硬核技术与千行万业共同智创未来
环球网资讯· 2025-12-23 17:20
行业趋势与市场前景 - 数据、算法与算力被视为人工智能的三大基石,算力是支撑AI模型落地的关键引擎 [1] - AI技术的演进正以前所未有的速度推动算力基础设施升级,华为预测到2035年全社会算力总量将比2025年增长10万倍 [1] - 为应对AI带来的算力需求指数级增长,计算领域正迎来从计算架构到材料器件,从工程工艺到计算范式的历史性变革 [1] - AI正以前所未有的速度重塑各行各业,在“人工智能+”行动驱动下,企业已将AI深度融入业务场景 [5] 公司战略与业务布局 - 公司提出“All Intelligence(全面智能化)”战略,系统构建从算力底座、模型生态到行业应用的完整AI能力体系,加速AI技术与实体经济融合 [5] - 公司强调开放创新和生态共建,不断夯实算力底座,并持续加大在联接、存储等领域的投入,推进ICT基础设施创新 [4] - 公司基于自身实践总结出智能化转型方法论“三层五阶八步”,并推出可复制、可推广的行业智能化参考架构,为企业转型提供战略框架与落地路径 [8] - 公司将发挥在技术、生态与产业整合方面的优势,加速产业集聚与生态融合,助力区域打造国家级先进制造业产业集群 [2] 产品与技术突破 - 公司推出业界规模最大的昇腾384超节点,采用全对等高速互联架构,可提供高达300PFLOPs的密集BF16算力,满足模型训练和推理对低时延、大带宽的要求 [3] - 公司将超节点理念应用于通用计算领域,基于鲲鹏推出TaiShan 950超节点,通过分布式GaussDB多写架构实现性能2.9倍提升,将虚拟化环境内存利用率提升20%,在Spark大数据场景将实时数据处理时间缩短30% [3] - 计算技术的演进路径正逐步脱离传统冯·诺依曼架构的束缚,催生出新型计算范式 [3] - 公司在计算、存储、联接等关键领域进行系统性、前瞻性布局,为数字经济发展构筑坚实的“算力、存力、运力”底座 [4] 行业应用与落地案例 - 公司已将AI技术率先应用于自身研发、制造、供应链等环节,提升生产力与运营效率,并积极推进AI在政府、医疗、电力、钢铁、交通、制造和金融等行业的落地 [6] - 在湖南省气象台,合作推出“风雷”、“风清”、“风顺”、“风和”等一系列AI气象预报大模型,显著提升预报精准度与服务能力,大幅降低预报误差 [6] - 在湘潭钢铁,合作建成全球首个钢铁工业大模型,在32个智能化应用场景中落地,实现“一键炼钢”,并基于昇腾算力与DeepSeek技术持续优化模型 [6] - 在国网湖南电力,合作推出人工智能“配网调度员”——“光明”,可大幅提升决策效率和准确性,提高电网响应速度,并继续推进精准配电网复合预测等场景的智能化升级 [7] 生态合作与区域发展 - 在湖南围绕生态共建,建设鲲鹏、昇腾和欧拉生态创新中心,为合作伙伴提供全生命周期算力服务,并通过产品适配和联合创新培养人才、打造方案 [4] - 在湖南以根技术为基础,以算力为底座,以场景为牵引,与当地优势产业相结合,共同迈向高端化、智能化和绿色化 [6] - 与株洲联合打造工业软件工程应用创新中心,聚合优秀工业软件企业,加快推进工业软件技术创新与应用落地 [8] - 与湖南四大实验室及湖南大学、中南大学等高校合作,联合构建产学研协同生态,并与多个本地单位联合设立创新实验室,推动技术、场景落地与产业协同 [9] - 华为鸿蒙生态(长沙)创新中心将联动本地资源与生态伙伴,加快落地“鸿蒙生态湘品湘用”示范场景和“政产学研用金”应用生态,打造中部地区鸿蒙生态创新高地 [9] - 公司将在人工智能+、数据要素等领域深化布局,积极探索AI+医疗、AI+农业育种、AI+文化传媒等领域的创新,并与湖南共建公共数据流通基础设施与安全可信空间 [9]
华为一口气发布多款芯片
半导体行业观察· 2025-09-19 09:29
昇腾AI芯片路线图 - 重申四大战略方向:坚持昇腾硬件变现、CANN编译器及虚拟指令集接口开放(其他软件全开源)、Mind系列应用使能套件及工具链全面开源、openPangu基础大模型全面开源,多项开源计划于2025年12月31日前完成 [2] - 未来三年规划三个芯片系列:即将推出的Ascend 950系列(含950PR和950DT两颗芯片)、以及规划中的Ascend 960和Ascend 970系列 [3] - Ascend 950系列实现根本性提升:新增支持FP8/MXFP8/MXFP4/HiF8等低精度格式,算力达1P/2P FLOPS;大幅提升向量算力;互联带宽相比910C提升2.5倍至2TB/s;自研两种HBM(HiBL 1.0和HiZQ 2.0)与Die合封,分别面向Prefill/推荐场景和Decode/训练场景 [3][4][5] - Ascend 950PR芯片采用自研低成本HBM(HiBL 1.0),面向推理Prefill阶段和推荐业务,计划2026年一季度推出 [5] - Ascend 950DT芯片采用自研HiZQ 2.0 HBM,内存容量144GB,访问带宽4TB/s,互联带宽2TB/s,面向推理Decode和训练场景,计划2026年四季度推出 [6] - Ascend 960芯片各项规格相比950翻倍,支持自研HiF4数据格式,计划2027年四季度推出 [6] - Ascend 970芯片规划FP4/FP8算力及互联带宽全面翻倍,内存访问带宽至少增加1.5倍,计划2028年四季度推出,实现几乎一年一代算力翻倍的演进速度 [7][12] Atlas超节点产品发布 - Atlas 900超节点满配384颗Ascend 910C芯片,最大算力300 PFLOPS,截至2025年已部署超300套,服务20多个客户 [8] - 发布基于Ascend 950DT的Atlas 950超节点:支持8192张昇腾卡,由160个机柜组成,占地面积约1000平方米,FP8算力8E FLOPS,FP4算力16E FLOPS,互联带宽16PB/s(超全球互联网峰值带宽10倍),计划2026年四季度上市 [9] - Atlas 950超节点对比英伟达NVL144:卡规模为其56.8倍,总算力为其6.7倍,内存容量1152TB为其15倍,互联带宽16.3PB/s为其62倍;相比Atlas 900,训练性能提升17倍至4.91M TPS,推理性能提升26.5倍至19.6M TPS [10] - 发布基于Ascend 960的Atlas 960超节点:最大支持15488卡,由220个机柜组成,占地面积约2200平方米,FP8总算力30E FLOPS,FP4总算力60E FLOPS,内存容量4460TB,互联带宽34PB/s,训练/推理性能相比Atlas 950提升3倍/4倍以上至15.9M TPS/80.5M TPS,计划2027年四季度上市 [11][13] 鲲鹏处理器与通用计算超节点 - 鲲鹏处理器围绕支持超节点、多核高性能方向演进,2026年一季度将推出Kunpeng 950处理器,含96核/192线程和192核/384线程两个版本,支持通用计算超节点,新增四层隔离实现机密计算 [14] - 发布全球首个通用计算超节点TaiShan 950:基于Kunpeng 950打造,最大支持16节点32个处理器,最大内存48TB,支持内存/SSD/DPU池化,计划2026年一季度上市 [16] - TaiShan 950结合GaussDB多写架构,无需分布式改造即可实现性能提升2.9倍,平滑替代大型机/小型机及Oracle Exadata;在虚拟化环境内存利用率提升20%,Spark大数据场景实时处理时间缩短30% [16][17] - 提出混合超节点概念:结合TaiShan 950和Atlas 950,构建PB级共享内存池支持超高维度用户特征,并提供超大AI算力支持超低时延推理,为下一代生成式推荐系统提供新架构 [17] 超节点互联技术突破 - 攻克大规模超节点互联两大挑战:通过系统性创新实现长距离(超200米)高可靠光互联(可靠性提升100倍)以及大带宽(TB级)低时延(2.1微秒)互联 [18][19] - 推出超节点互联协议“灵衢”(UB - UnifiedBus),具备总线级互联、平等协同等六大特征;灵衢1.0已随Atlas 900商用部署300多套,Atlas 950基于灵衢2.0,华为将开放灵衢2.0以共建生态 [19][20] - 超节点架构核心价值为“万卡超节点,一台计算机”,通过灵衢协议将数万计算卡联接成一体工作 [19] 超级计算集群规划 - 发布Atlas 950 SuperCluster集群:由64个Atlas 950超节点互联组成,集成52万多片昇腾950DT卡,FP8总算力524E FLOPS,支持UBoE与RoCE协议(推荐UBoE),计划2026年四季度上市 [21] - Atlas 950 SuperCluster集群规模为xAI Colossus的2.5倍,算力为其1.3倍,支持千亿至十万亿参数大模型训练 [22] - 规划Atlas 960 SuperCluster集群:规模达百万卡级,FP8总算力2 ZFLOPS,FP4总算力4 ZFLOPS,支持UBoE与RoCE,计划2027年四季度推出 [22]
徐直军,最新发声!
中国基金报· 2025-09-18 21:23
昇腾芯片发展规划 - 公司规划未来三年推出昇腾950、960、970三个系列芯片 [2][5] - 芯片演进速度将达到几乎一年一代且算力翻倍 [2][4][5] - 昇腾950系列相比前代有四大根本性提升:新增支持FP8/MXFP8/MXFP4等低数值精度格式,算力达1P和2P;通过提升向量算力占比等设计大幅提升向量算力;互联带宽达2TB/s,较昇腾910C提升2.5倍;自研HiBL1.0和HiZQ 2.0两种HBM与Die合封 [5] - 昇腾960计划于2027年四季度推出,在算力、内存访问带宽等规格上较昇腾950全面翻倍,并支持自研HiF4数据格式 [6] - 昇腾970初步计划FP4算力、FP8算力、互联带宽较昇腾960翻倍,内存访问带宽至少增加1.5倍 [7] 超节点与集群产品 - 公司发布Atlas 950超节点、Atlas 960超节点、TaiShan 950超节点三款超节点产品 [9] - 推出新型互联协议“灵衢”,并开放灵衢2.0技术规范以促进产业生态 [9][10] - Atlas 950 SuperCluster集群规模是当前世界最大集群xAI Colossus的2.5倍,算力是其1.3倍 [10] - 计划在2027年四季度基于Atlas 960超节点推出Atlas 960 SuperCluster,集群规模将提升至百万卡级 [10]
华为徐直军,罕见公开华为AI算力版图,新超节点已超越英伟达
21世纪经济报道· 2025-09-18 18:48
华为AI算力战略与产品路线图 - 华为在HC 2025大会上首次完整公布昇腾芯片三年迭代路线:2026年一季度推出Ascend 950系列、2027年Ascend 960、2028年Ascend 970,实现"一年一代算力翻倍" [3] - Atlas 950超节点支持8192卡并于2026年四季度上市,FP8算力达8E FLOPS,互联带宽16PB/s;Atlas 960支持15488卡并于2027年推出,性能再次翻倍 [3] - 推出基于鲲鹏950处理器的TaiShan 950超节点,通过分布式GaussDB多写架构实现性能提升2.9倍,直接对标传统数据库和高端服务器市场 [4] 技术突破与生态开放 - 昇腾950系列在低精度数据格式、向量算力、互联带宽及自研HBM等方面实现突破,同时承诺芯片硬件演进、CANN编译器及Mind工具链全面开源、openPangu基础大模型开放 [3] - 自研"灵衢(UnifiedBus)"互联协议在光互联、带宽和时延上实现系统性创新,支持跨机柜万卡级高可靠算力协同,并从2.0版本起向产业开放标准 [4] 资本市场反应与产业链合作 - 华为算力概念股午后上涨:烽火通信涨停、兴图新科涨超10%、星环科技与信安世纪涨超5%、神州数码与高新发展跟涨 [6] - 烽火通信旗下长江计算与昇腾合作发布"智"系列解决方案;兴图新科获华为昇腾人工智能国产化平台技术认证;星环科技与华为在智能计算产品深度适配 [9] 行业前景与国产算力发展 - 华为通过系统级创新弥补单芯片性能短板,为大规模算力基础设施建设提供方案,同时鸿蒙电脑操作系统推动PC国产化进程加速 [9] - 国产算力链涨幅有限但具备上涨空间,晶圆制造/封测产能利用率持续走高,半导体设备/零部件订单充足,国产算力芯片迎来高增长 [9][10]
华为披露芯片路线图,详情披露
半导体芯闻· 2025-09-18 18:40
华为昇腾芯片技术演进 - 昇腾芯片持续演进 为中国及全球AI算力提供基础 未来3年规划三个系列芯片 包括Ascend 950/960/970系列 [2][3] - Ascend 950系列即将推出 包含两颗芯片:950PR面向推理Prefill和推荐场景 950DT面向推理Decode和训练场景 [3][4] - 相比前代Ascend 910C Ascend 950实现根本性提升:新增支持FP8/MXFP8/MXFP4等低精度格式 FP8算力达1 PFLOPS FP4算力达2 PFLOPS 互联带宽提升2.5倍至2TB/s [3][4][5] - 采用自研HBM技术:950PR采用HiBL 1.0 HBM 降低成本 950DT采用HiZQ 2.0 HBM 内存容量达144GB 带宽达4TB/s [4][5] - Ascend 960规划于2027Q4推出 各项规格相比950翻倍 FP8算力达2 PFLOPS FP4算力达4 PFLOPS 支持HiF4格式 [6][7] - Ascend 970规划于2028Q4推出 相比960 FP8算力翻倍至4 PFLOPS FP4算力翻倍至8 PFLOPS 互联带宽翻倍至4TB/s 内存带宽提升1.5倍 [7] 超节点产品布局 - Atlas 900超节点已部署300多套 满配384颗Ascend 910C芯片 算力达300 PFLOPS 服务20多个客户 [8] - 新发布Atlas 950超节点 基于Ascend 950DT 支持8192张卡 是Atlas 900规模的20多倍 FP8算力达8 EFLOPS FP4算力达16 EFLOPS 互联带宽达16PB/s 超全球互联网峰值带宽10倍 2026Q4上市 [9][10] - 相比英伟达NVL144 Atlas 950卡规模是其56.8倍 总算力是其6.7倍 内存容量达1152TB是其15倍 互联带宽达16.3PB/s是其62倍 [10] - Atlas 950超节点训练性能提升17倍达4.91M TPS 推理性能提升26.5倍达19.6M TPS [10][11] - Atlas 960超节点规划于2027Q4 基于Ascend 960 支持15488卡 FP8总算力达30 EFLOPS FP4总算力达60 EFLOPS 内存容量达4460TB 互联带宽达34PB/s 训练和推理性能相比950提升3倍和4倍以上 [11] 集群解决方案 - Atlas 950 SuperCluster集群由64个Atlas 950超节点组成 集成52万多片昇腾950DT卡 FP8总算力达524 EFLOPS 2026Q4上市 [19] - 相比xAI Colossus集群 华为集群规模是其2.5倍 算力是其1.3倍 [20] - Atlas 960 SuperCluster规划于2027Q4 规模达百万卡级 FP8总算力达2 ZFLOPS FP4总算力达4 ZFLOPS [20] - 集群支持UBoE和RoCE协议 UBoE相比RoCE静态时延更低 可靠性更高 节省交换机和光模块数量 [20] 通用计算超节点 - 鲲鹏处理器围绕超节点方向演进 2026Q1推出Kunpeng 950处理器 两个版本:96核/192线程和192核/384线程 支持通用计算超节点 新增四层隔离安全特性 [12] - 发布TaiShan 950通用计算超节点 基于Kunpeng 950 最大支持16节点32个处理器 内存48TB 支持内存/SSD/DPU池化 2026Q1上市 [14] - TaiShan 950助力金融系统替代大型机/小型机 结合GaussDB多写架构无需分布式改造 性能提升2.9倍 [14][15] - 在虚拟化环境内存利用率提升20% Spark大数据场景实时处理时间缩短30% [15] - 支持构建混合超节点 结合TaiShan 950和Atlas 950 为生成式推荐系统提供PB级共享内存池和超低时延推理能力 [15] 互联技术创新 - 华为开创超节点互联协议"灵衢"(UB) 灵衢1.0已用于Atlas 900超节点 灵衢2.0用于Atlas 950超节点 将开放给产业界共建生态 [17][18][19] - 解决长距离高可靠互联问题 光互联可靠性提升100倍 距离超200米 [16][17] - 解决大带宽低时延问题 实现TB级带宽和2.1微秒时延 [16][17] - 万卡超节点架构具备六大特征:总线级互联、平等协同、全量池化、协议归一、大规模组网、高可用性 [17]