行业背景与需求 - 当前算力需求远未被满足,大模型进入生产系统及消费端导致token消耗量呈指数级增长,未来中国每日token消耗量可能突破千万亿 [3] - 简单堆砌服务器和芯片无法有效解决算力缺口,根据Meta论文,万卡集群训练时算力利用率仅约38%,存在高达62%的算力浪费,且模型训练每3小时中断一次 [3] - 集群网络通信已成为大模型训练和推理的主要挑战,计算单元间通信不畅会导致NPU闲置,造成效率低下,出现1+1<2的结果 [3] 超节点的定义与核心特点 - 超节点是对传统计算架构的重构,从以CPU为中心转变为全平等互联架构,CPU、NPU和内存单元无需经过CPU即可直接互联,提升了通信效率 [4] - 真正的超节点需具备三大关键特点:足够大的带宽以确保计算不等待通信、足够低的时延、形成逻辑上的单一系统,其核心在于内存的统一编址 [6] - 统一内存编址技术是实现超节点的关键,它使内存能够池化,从而实现计算单元间的数据快速交换,提升计算效率 [6] 超节点的性能优势 - 超节点相比传统集群的最大优势是显著提升计算效率,可将模型算力利用率从30%提升至45%,相当于性能提升50% [7] - 在摩尔定律放缓、芯片制程从7纳米到3纳米每代性能提升不超过20%的背景下,超节点通过高效资源调度,能在一定程度上弥补芯片工艺的代差 [7] 华为超节点的技术实现与创新 - 华为昇腾384超节点由12个计算柜和4个总线柜构成,其核心创新在于采用光通信技术实现超高速互联,突破了电信号传输距离(通常2-5米)的限制,从而能够规模商用384颗芯片互联,并未来支持8192颗芯片互联 [8] - 光模块技术面临成本高、对环境敏感(如灰尘、温度变化易导致闪断)等挑战,实现如电一般可靠、如光一般长距离传输难度很大 [8] - 华为凭借系统化创新实现了全光互联超节点,其能力源于自研芯片、光器件、底层协议以及在光通信领域超过20年的全球领先技术积累 [9] - 华为构建了新型互联协议“灵衢UB”(UnifiedBus),并将灵衢2.0规范开放,其基础协议长达600页,是业界最详细完整的协议,旨在与产业界共创繁荣生态 [11][12] 华为超节点的产品布局 - 华为不仅在发展智算超节点(如昇腾384),也在发展通算超节点,例如基于鲲鹏950处理器的TaiShan 950超节点,这是全球首个通用计算超节点,计划于2026年一季度上市 [9] - TaiShan 950超节点结合分布式GaussDB数据库,旨在取代各种应用场景的大型机、小型机以及Oracle的Exadata数据库服务器 [9] - 无论是智算还是通算超节点,其核心目标都是让大量服务器像一台计算机一样工作,提供超大带宽、超低时延和统一内存编址能力 [11] 软件生态与产业共建 - 支撑超节点运行的不仅有硬件,还包括大量软件生态,如异构计算架构CANN、操作系统openEuler、数据库openGauss、AI框架MindSpore等 [14] - 华为坚持软件开源开放,截至2025年8月,鲲鹏注册开发者达380万,昇腾开发者近400万,并将CANN从底层运行时到开发语言、算子库等完整开源 [14] - openEuler是业界首个面向超节点的开源操作系统,华为通过开放核心技术与产业协同共创,以应对AI时代快速迭代的挑战 [14]
华为超节点赶超英伟达:驾驭“光”很关键