TaiShan 950超节点 - 财报，业绩电话会，研报，新闻

TaiShan 950超节点

搜索文档

观察者网· 2026-02-10 11:20

行业背景与需求 - 当前算力需求远未被满足，大模型进入生产系统及消费端导致token消耗量呈指数级增长，未来中国每日token消耗量可能突破千万亿 [3] - 简单堆砌服务器和芯片无法有效解决算力缺口，根据Meta论文，万卡集群训练时算力利用率仅约38%，存在高达62%的算力浪费，且模型训练每3小时中断一次 [3] - 集群网络通信已成为大模型训练和推理的主要挑战，计算单元间通信不畅会导致NPU闲置，造成效率低下，出现1+1<2的结果 [3] 超节点的定义与核心特点 - 超节点是对传统计算架构的重构，从以CPU为中心转变为全平等互联架构，CPU、NPU和内存单元无需经过CPU即可直接互联，提升了通信效率 [4] - 真正的超节点需具备三大关键特点：足够大的带宽以确保计算不等待通信、足够低的时延、形成逻辑上的单一系统，其核心在于内存的统一编址 [6] - 统一内存编址技术是实现超节点的关键，它使内存能够池化，从而实现计算单元间的数据快速交换，提升计算效率 [6] 超节点的性能优势 - 超节点相比传统集群的最大优势是显著提升计算效率，可将模型算力利用率从30%提升至45%，相当于性能提升50% [7] - 在摩尔定律放缓、芯片制程从7纳米到3纳米每代性能提升不超过20%的背景下，超节点通过高效资源调度，能在一定程度上弥补芯片工艺的代差 [7] 华为超节点的技术实现与创新 - 华为昇腾384超节点由12个计算柜和4个总线柜构成，其核心创新在于采用光通信技术实现超高速互联，突破了电信号传输距离（通常2-5米）的限制，从而能够规模商用384颗芯片互联，并未来支持8192颗芯片互联 [8] - 光模块技术面临成本高、对环境敏感（如灰尘、温度变化易导致闪断）等挑战，实现如电一般可靠、如光一般长距离传输难度很大 [8] - 华为凭借系统化创新实现了全光互联超节点，其能力源于自研芯片、光器件、底层协议以及在光通信领域超过20年的全球领先技术积累 [9] - 华为构建了新型互联协议“灵衢UB”（UnifiedBus），并将灵衢2.0规范开放，其基础协议长达600页，是业界最详细完整的协议，旨在与产业界共创繁荣生态 [11][12] 华为超节点的产品布局 - 华为不仅在发展智算超节点（如昇腾384），也在发展通算超节点，例如基于鲲鹏950处理器的TaiShan 950超节点，这是全球首个通用计算超节点，计划于2026年一季度上市 [9] - TaiShan 950超节点结合分布式GaussDB数据库，旨在取代各种应用场景的大型机、小型机以及Oracle的Exadata数据库服务器 [9] - 无论是智算还是通算超节点，其核心目标都是让大量服务器像一台计算机一样工作，提供超大带宽、超低时延和统一内存编址能力 [11] 软件生态与产业共建 - 支撑超节点运行的不仅有硬件，还包括大量软件生态，如异构计算架构CANN、操作系统openEuler、数据库openGauss、AI框架MindSpore等 [14] - 华为坚持软件开源开放，截至2025年8月，鲲鹏注册开发者达380万，昇腾开发者近400万，并将CANN从底层运行时到开发语言、算子库等完整开源 [14] - openEuler是业界首个面向超节点的开源操作系统，华为通过开放核心技术与产业协同共创，以应对AI时代快速迭代的挑战 [14]

华为打造“最强超节点”，这项全球领先技术很关键

观察者网· 2026-02-10 11:10

文章核心观点 - 超节点是AI算力基础设施的重要革新，其核心价值在于通过重构计算架构（如全平等互联、统一内存编址）来显著提升算力利用率，而非简单的硬件堆砌 [1][4][7] - 华为凭借在光通信等领域的系统化创新能力，实现了大规模芯片（如384颗昇腾芯片）的高效互联，并计划将技术开放以构建产业生态 [8][9][11][12] - 算力需求（如中国每日token消耗量可能突破千万亿）正指数级增长，但传统集群存在严重效率问题（如万卡集群算力利用率仅约38%），这凸显了超节点技术的必要性 [3][7] 行业背景与需求 - AI算力需求远未被满足，大模型在生产系统和消费端的token消耗量正指数级增长，未来中国每日token消耗量可能突破千万亿 [3] - 传统通过大量建设服务器集群“堆卡”的方式存在巨大效率瓶颈，例如Meta论文指出万卡集群训练时算力利用率仅约38%，会造成62%的算力浪费，且模型训练每3小时中断一次 [3] - 集群网络通信已成为大模型训练和推理的最大挑战，以混合专家模型（MoE）为例，计算单元间通信不畅会导致NPU闲置，造成1+1<2的效率损失 [3] 超节点的技术定义与优势 - 超节点是对传统以CPU为中心的计算架构的重构，变为全平等互联架构，CPU、NPU、内存单元无需经过CPU即可直接互联，提高了通信效率 [4] - 真正的超节点须具备三个关键特点：足够大的带宽（让计算不等待通信）、足够低的时延、形成逻辑上的单一系统（关键在于内存统一编址） [6] - 统一内存编址技术是实现超节点的核心，它使内存能够池化，实现计算单元间的数据快速交换，类似于图书馆的书籍编址检索，与传统集群“寄快递”式的信息传递方式有本质区别 [6] - 超节点能显著提升计算效率，可将模型算力利用率从30%提升到45%，相当于提升50%，这在一定程度上可以弥补芯片工艺代差（如7纳米到3纳米每代性能提升不超过20%）带来的挑战 [7] 华为超节点的技术实现与创新 - 华为昇腾384超节点由12个计算柜和4个总线柜构成，其大规模互联（384颗芯片）的核心在于采用了光通信技术，而非业界常见的全铜线电信号架构 [8] - 电信号传输距离受限（通常只能在一个机柜内传送2到5米），而光通信技术使华为能够跳出单个机柜限制，实现384颗芯片互联，并计划未来支持8192颗芯片互联 [8] - 光模块技术挑战大，存在成本高、对环境敏感（灰尘、温度变化易导致闪断）等问题，华为凭借在光通信领域过去20年全球第一的技术积累和系统化创新能力（自研芯片、光器件、底层协议），实现了可靠的全光互联超节点 [8][9] - 华为构建了新型互联协议“灵衢UB（UnifiedBus）”，并将其灵衢2.0规范（基础协议达600页）完全开放，旨在让产业界伙伴能借此技术打造自己的超节点，共创繁荣生态 [11][12] 产品布局与生态建设 - 华为不仅在发展智算超节点（如昇腾系列），也在发展通算超节点，例如基于鲲鹏950处理器的TaiShan 950超节点，这是全球首个通用计算超节点，计划在2026年一季度上市 [9] - TaiShan 950超节点结合分布式GaussDB数据库，旨在取代各种应用场景的大型机、小型机以及Oracle的Exadata数据库服务器 [9] - 华为坚持软件开源开放以共建生态，其鲲鹏有380万注册开发者，昇腾有近400万开发者，并于2025年8月将异构计算架构CANN完全开源，openEuler是业界首个面向超节点的开源操作系统 [14] - 开放软件栈（包括CANN、openEuler、openGauss、MindSpore）旨在让开发者能基于此进行业务创新，华为认为AI时代需协同共创、开放共生 [14]

计算筑基，华为以硬核技术与千行万业共同智创未来

环球网资讯· 2025-12-23 17:20

行业趋势与市场前景 - 数据、算法与算力被视为人工智能的三大基石，算力是支撑AI模型落地的关键引擎 [1] - AI技术的演进正以前所未有的速度推动算力基础设施升级，华为预测到2035年全社会算力总量将比2025年增长10万倍 [1] - 为应对AI带来的算力需求指数级增长，计算领域正迎来从计算架构到材料器件，从工程工艺到计算范式的历史性变革 [1] - AI正以前所未有的速度重塑各行各业，在“人工智能+”行动驱动下，企业已将AI深度融入业务场景 [5] 公司战略与业务布局 - 公司提出“All Intelligence（全面智能化）”战略，系统构建从算力底座、模型生态到行业应用的完整AI能力体系，加速AI技术与实体经济融合 [5] - 公司强调开放创新和生态共建，不断夯实算力底座，并持续加大在联接、存储等领域的投入，推进ICT基础设施创新 [4] - 公司基于自身实践总结出智能化转型方法论“三层五阶八步”，并推出可复制、可推广的行业智能化参考架构，为企业转型提供战略框架与落地路径 [8] - 公司将发挥在技术、生态与产业整合方面的优势，加速产业集聚与生态融合，助力区域打造国家级先进制造业产业集群 [2] 产品与技术突破 - 公司推出业界规模最大的昇腾384超节点，采用全对等高速互联架构，可提供高达300PFLOPs的密集BF16算力，满足模型训练和推理对低时延、大带宽的要求 [3] - 公司将超节点理念应用于通用计算领域，基于鲲鹏推出TaiShan 950超节点，通过分布式GaussDB多写架构实现性能2.9倍提升，将虚拟化环境内存利用率提升20%，在Spark大数据场景将实时数据处理时间缩短30% [3] - 计算技术的演进路径正逐步脱离传统冯·诺依曼架构的束缚，催生出新型计算范式 [3] - 公司在计算、存储、联接等关键领域进行系统性、前瞻性布局，为数字经济发展构筑坚实的“算力、存力、运力”底座 [4] 行业应用与落地案例 - 公司已将AI技术率先应用于自身研发、制造、供应链等环节，提升生产力与运营效率，并积极推进AI在政府、医疗、电力、钢铁、交通、制造和金融等行业的落地 [6] - 在湖南省气象台，合作推出“风雷”、“风清”、“风顺”、“风和”等一系列AI气象预报大模型，显著提升预报精准度与服务能力，大幅降低预报误差 [6] - 在湘潭钢铁，合作建成全球首个钢铁工业大模型，在32个智能化应用场景中落地，实现“一键炼钢”，并基于昇腾算力与DeepSeek技术持续优化模型 [6] - 在国网湖南电力，合作推出人工智能“配网调度员”——“光明”，可大幅提升决策效率和准确性，提高电网响应速度，并继续推进精准配电网复合预测等场景的智能化升级 [7] 生态合作与区域发展 - 在湖南围绕生态共建，建设鲲鹏、昇腾和欧拉生态创新中心，为合作伙伴提供全生命周期算力服务，并通过产品适配和联合创新培养人才、打造方案 [4] - 在湖南以根技术为基础，以算力为底座，以场景为牵引，与当地优势产业相结合，共同迈向高端化、智能化和绿色化 [6] - 与株洲联合打造工业软件工程应用创新中心，聚合优秀工业软件企业，加快推进工业软件技术创新与应用落地 [8] - 与湖南四大实验室及湖南大学、中南大学等高校合作，联合构建产学研协同生态，并与多个本地单位联合设立创新实验室，推动技术、场景落地与产业协同 [9] - 华为鸿蒙生态（长沙）创新中心将联动本地资源与生态伙伴，加快落地“鸿蒙生态湘品湘用”示范场景和“政产学研用金”应用生态，打造中部地区鸿蒙生态创新高地 [9] - 公司将在人工智能+、数据要素等领域深化布局，积极探索AI+医疗、AI+农业育种、AI+文化传媒等领域的创新，并与湖南共建公共数据流通基础设施与安全可信空间 [9]

半导体行业观察· 2025-09-19 09:29

昇腾AI芯片路线图 - 重申四大战略方向：坚持昇腾硬件变现、CANN编译器及虚拟指令集接口开放（其他软件全开源）、Mind系列应用使能套件及工具链全面开源、openPangu基础大模型全面开源，多项开源计划于2025年12月31日前完成 [2] - 未来三年规划三个芯片系列：即将推出的Ascend 950系列（含950PR和950DT两颗芯片）、以及规划中的Ascend 960和Ascend 970系列 [3] - Ascend 950系列实现根本性提升：新增支持FP8/MXFP8/MXFP4/HiF8等低精度格式，算力达1P/2P FLOPS；大幅提升向量算力；互联带宽相比910C提升2.5倍至2TB/s；自研两种HBM（HiBL 1.0和HiZQ 2.0）与Die合封，分别面向Prefill/推荐场景和Decode/训练场景 [3][4][5] - Ascend 950PR芯片采用自研低成本HBM（HiBL 1.0），面向推理Prefill阶段和推荐业务，计划2026年一季度推出 [5] - Ascend 950DT芯片采用自研HiZQ 2.0 HBM，内存容量144GB，访问带宽4TB/s，互联带宽2TB/s，面向推理Decode和训练场景，计划2026年四季度推出 [6] - Ascend 960芯片各项规格相比950翻倍，支持自研HiF4数据格式，计划2027年四季度推出 [6] - Ascend 970芯片规划FP4/FP8算力及互联带宽全面翻倍，内存访问带宽至少增加1.5倍，计划2028年四季度推出，实现几乎一年一代算力翻倍的演进速度 [7][12] Atlas超节点产品发布 - Atlas 900超节点满配384颗Ascend 910C芯片，最大算力300 PFLOPS，截至2025年已部署超300套，服务20多个客户 [8] - 发布基于Ascend 950DT的Atlas 950超节点：支持8192张昇腾卡，由160个机柜组成，占地面积约1000平方米，FP8算力8E FLOPS，FP4算力16E FLOPS，互联带宽16PB/s（超全球互联网峰值带宽10倍），计划2026年四季度上市 [9] - Atlas 950超节点对比英伟达NVL144：卡规模为其56.8倍，总算力为其6.7倍，内存容量1152TB为其15倍，互联带宽16.3PB/s为其62倍；相比Atlas 900，训练性能提升17倍至4.91M TPS，推理性能提升26.5倍至19.6M TPS [10] - 发布基于Ascend 960的Atlas 960超节点：最大支持15488卡，由220个机柜组成，占地面积约2200平方米，FP8总算力30E FLOPS，FP4总算力60E FLOPS，内存容量4460TB，互联带宽34PB/s，训练/推理性能相比Atlas 950提升3倍/4倍以上至15.9M TPS/80.5M TPS，计划2027年四季度上市 [11][13] 鲲鹏处理器与通用计算超节点 - 鲲鹏处理器围绕支持超节点、多核高性能方向演进，2026年一季度将推出Kunpeng 950处理器，含96核/192线程和192核/384线程两个版本，支持通用计算超节点，新增四层隔离实现机密计算 [14] - 发布全球首个通用计算超节点TaiShan 950：基于Kunpeng 950打造，最大支持16节点32个处理器，最大内存48TB，支持内存/SSD/DPU池化，计划2026年一季度上市 [16] - TaiShan 950结合GaussDB多写架构，无需分布式改造即可实现性能提升2.9倍，平滑替代大型机/小型机及Oracle Exadata；在虚拟化环境内存利用率提升20%，Spark大数据场景实时处理时间缩短30% [16][17] - 提出混合超节点概念：结合TaiShan 950和Atlas 950，构建PB级共享内存池支持超高维度用户特征，并提供超大AI算力支持超低时延推理，为下一代生成式推荐系统提供新架构 [17] 超节点互联技术突破 - 攻克大规模超节点互联两大挑战：通过系统性创新实现长距离（超200米）高可靠光互联（可靠性提升100倍）以及大带宽（TB级）低时延（2.1微秒）互联 [18][19] - 推出超节点互联协议“灵衢”（UB - UnifiedBus），具备总线级互联、平等协同等六大特征；灵衢1.0已随Atlas 900商用部署300多套，Atlas 950基于灵衢2.0，华为将开放灵衢2.0以共建生态 [19][20] - 超节点架构核心价值为“万卡超节点，一台计算机”，通过灵衢协议将数万计算卡联接成一体工作 [19] 超级计算集群规划 - 发布Atlas 950 SuperCluster集群：由64个Atlas 950超节点互联组成，集成52万多片昇腾950DT卡，FP8总算力524E FLOPS，支持UBoE与RoCE协议（推荐UBoE），计划2026年四季度上市 [21] - Atlas 950 SuperCluster集群规模为xAI Colossus的2.5倍，算力为其1.3倍，支持千亿至十万亿参数大模型训练 [22] - 规划Atlas 960 SuperCluster集群：规模达百万卡级，FP8总算力2 ZFLOPS，FP4总算力4 ZFLOPS，支持UBoE与RoCE，计划2027年四季度推出 [22]

中国基金报· 2025-09-18 21:23

昇腾芯片发展规划 - 公司规划未来三年推出昇腾950、960、970三个系列芯片 [2][5] - 芯片演进速度将达到几乎一年一代且算力翻倍 [2][4][5] - 昇腾950系列相比前代有四大根本性提升：新增支持FP8/MXFP8/MXFP4等低数值精度格式，算力达1P和2P；通过提升向量算力占比等设计大幅提升向量算力；互联带宽达2TB/s，较昇腾910C提升2.5倍；自研HiBL1.0和HiZQ 2.0两种HBM与Die合封 [5] - 昇腾960计划于2027年四季度推出，在算力、内存访问带宽等规格上较昇腾950全面翻倍，并支持自研HiF4数据格式 [6] - 昇腾970初步计划FP4算力、FP8算力、互联带宽较昇腾960翻倍，内存访问带宽至少增加1.5倍 [7] 超节点与集群产品 - 公司发布Atlas 950超节点、Atlas 960超节点、TaiShan 950超节点三款超节点产品 [9] - 推出新型互联协议“灵衢”，并开放灵衢2.0技术规范以促进产业生态 [9][10] - Atlas 950 SuperCluster集群规模是当前世界最大集群xAI Colossus的2.5倍，算力是其1.3倍 [10] - 计划在2027年四季度基于Atlas 960超节点推出Atlas 960 SuperCluster，集群规模将提升至百万卡级 [10]

Atlas 950 SuperCluster集群

Atlas 950 SuperCluster集群

华为徐直军，罕见公开华为AI算力版图，新超节点已超越英伟达

21世纪经济报道· 2025-09-18 18:48

华为AI算力战略与产品路线图 - 华为在HC 2025大会上首次完整公布昇腾芯片三年迭代路线：2026年一季度推出Ascend 950系列、2027年Ascend 960、2028年Ascend 970，实现"一年一代算力翻倍" [3] - Atlas 950超节点支持8192卡并于2026年四季度上市，FP8算力达8E FLOPS，互联带宽16PB/s；Atlas 960支持15488卡并于2027年推出，性能再次翻倍 [3] - 推出基于鲲鹏950处理器的TaiShan 950超节点，通过分布式GaussDB多写架构实现性能提升2.9倍，直接对标传统数据库和高端服务器市场 [4] 技术突破与生态开放 - 昇腾950系列在低精度数据格式、向量算力、互联带宽及自研HBM等方面实现突破，同时承诺芯片硬件演进、CANN编译器及Mind工具链全面开源、openPangu基础大模型开放 [3] - 自研"灵衢（UnifiedBus）"互联协议在光互联、带宽和时延上实现系统性创新，支持跨机柜万卡级高可靠算力协同，并从2.0版本起向产业开放标准 [4] 资本市场反应与产业链合作 - 华为算力概念股午后上涨：烽火通信涨停、兴图新科涨超10%、星环科技与信安世纪涨超5%、神州数码与高新发展跟涨 [6] - 烽火通信旗下长江计算与昇腾合作发布"智"系列解决方案；兴图新科获华为昇腾人工智能国产化平台技术认证；星环科技与华为在智能计算产品深度适配 [9] 行业前景与国产算力发展 - 华为通过系统级创新弥补单芯片性能短板，为大规模算力基础设施建设提供方案，同时鸿蒙电脑操作系统推动PC国产化进程加速 [9] - 国产算力链涨幅有限但具备上涨空间，晶圆制造/封测产能利用率持续走高，半导体设备/零部件订单充足，国产算力芯片迎来高增长 [9][10]

半导体芯闻· 2025-09-18 18:40

华为昇腾芯片技术演进 - 昇腾芯片持续演进为中国及全球AI算力提供基础未来3年规划三个系列芯片包括Ascend 950/960/970系列 [2][3] - Ascend 950系列即将推出包含两颗芯片：950PR面向推理Prefill和推荐场景 950DT面向推理Decode和训练场景 [3][4] - 相比前代Ascend 910C Ascend 950实现根本性提升：新增支持FP8/MXFP8/MXFP4等低精度格式 FP8算力达1 PFLOPS FP4算力达2 PFLOPS 互联带宽提升2.5倍至2TB/s [3][4][5] - 采用自研HBM技术：950PR采用HiBL 1.0 HBM 降低成本 950DT采用HiZQ 2.0 HBM 内存容量达144GB 带宽达4TB/s [4][5] - Ascend 960规划于2027Q4推出各项规格相比950翻倍 FP8算力达2 PFLOPS FP4算力达4 PFLOPS 支持HiF4格式 [6][7] - Ascend 970规划于2028Q4推出相比960 FP8算力翻倍至4 PFLOPS FP4算力翻倍至8 PFLOPS 互联带宽翻倍至4TB/s 内存带宽提升1.5倍 [7] 超节点产品布局 - Atlas 900超节点已部署300多套满配384颗Ascend 910C芯片算力达300 PFLOPS 服务20多个客户 [8] - 新发布Atlas 950超节点基于Ascend 950DT 支持8192张卡是Atlas 900规模的20多倍 FP8算力达8 EFLOPS FP4算力达16 EFLOPS 互联带宽达16PB/s 超全球互联网峰值带宽10倍 2026Q4上市 [9][10] - 相比英伟达NVL144 Atlas 950卡规模是其56.8倍总算力是其6.7倍内存容量达1152TB是其15倍互联带宽达16.3PB/s是其62倍 [10] - Atlas 950超节点训练性能提升17倍达4.91M TPS 推理性能提升26.5倍达19.6M TPS [10][11] - Atlas 960超节点规划于2027Q4 基于Ascend 960 支持15488卡 FP8总算力达30 EFLOPS FP4总算力达60 EFLOPS 内存容量达4460TB 互联带宽达34PB/s 训练和推理性能相比950提升3倍和4倍以上 [11] 集群解决方案 - Atlas 950 SuperCluster集群由64个Atlas 950超节点组成集成52万多片昇腾950DT卡 FP8总算力达524 EFLOPS 2026Q4上市 [19] - 相比xAI Colossus集群华为集群规模是其2.5倍算力是其1.3倍 [20] - Atlas 960 SuperCluster规划于2027Q4 规模达百万卡级 FP8总算力达2 ZFLOPS FP4总算力达4 ZFLOPS [20] - 集群支持UBoE和RoCE协议 UBoE相比RoCE静态时延更低可靠性更高节省交换机和光模块数量 [20] 通用计算超节点 - 鲲鹏处理器围绕超节点方向演进 2026Q1推出Kunpeng 950处理器两个版本：96核/192线程和192核/384线程支持通用计算超节点新增四层隔离安全特性 [12] - 发布TaiShan 950通用计算超节点基于Kunpeng 950 最大支持16节点32个处理器内存48TB 支持内存/SSD/DPU池化 2026Q1上市 [14] - TaiShan 950助力金融系统替代大型机/小型机结合GaussDB多写架构无需分布式改造性能提升2.9倍 [14][15] - 在虚拟化环境内存利用率提升20% Spark大数据场景实时处理时间缩短30% [15] - 支持构建混合超节点结合TaiShan 950和Atlas 950 为生成式推荐系统提供PB级共享内存池和超低时延推理能力 [15] 互联技术创新 - 华为开创超节点互联协议"灵衢"（UB）灵衢1.0已用于Atlas 900超节点灵衢2.0用于Atlas 950超节点将开放给产业界共建生态 [17][18][19] - 解决长距离高可靠互联问题光互联可靠性提升100倍距离超200米 [16][17] - 解决大带宽低时延问题实现TB级带宽和2.1微秒时延 [16][17] - 万卡超节点架构具备六大特征：总线级互联、平等协同、全量池化、协议归一、大规模组网、高可用性 [17]