Nvidia-华为超节点赶超英伟达：驾驭“光”很关键

行业背景与需求 - 当前算力需求远未被满足，大模型进入生产系统及消费端导致token消耗量呈指数级增长，未来中国每日token消耗量可能突破千万亿 [3] - 简单堆砌服务器和芯片无法有效解决算力缺口，根据Meta论文，万卡集群训练时算力利用率仅约38%，存在高达62%的算力浪费，且模型训练每3小时中断一次 [3] - 集群网络通信已成为大模型训练和推理的主要挑战，计算单元间通信不畅会导致NPU闲置，造成效率低下，出现1+1<2的结果 [3] 超节点的定义与核心特点 - 超节点是对传统计算架构的重构，从以CPU为中心转变为全平等互联架构，CPU、NPU和内存单元无需经过CPU即可直接互联，提升了通信效率 [4] - 真正的超节点需具备三大关键特点：足够大的带宽以确保计算不等待通信、足够低的时延、形成逻辑上的单一系统，其核心在于内存的统一编址 [6] - 统一内存编址技术是实现超节点的关键，它使内存能够池化，从而实现计算单元间的数据快速交换，提升计算效率 [6] 超节点的性能优势 - 超节点相比传统集群的最大优势是显著提升计算效率，可将模型算力利用率从30%提升至45%，相当于性能提升50% [7] - 在摩尔定律放缓、芯片制程从7纳米到3纳米每代性能提升不超过20%的背景下，超节点通过高效资源调度，能在一定程度上弥补芯片工艺的代差 [7] 华为超节点的技术实现与创新 - 华为昇腾384超节点由12个计算柜和4个总线柜构成，其核心创新在于采用光通信技术实现超高速互联，突破了电信号传输距离（通常2-5米）的限制，从而能够规模商用384颗芯片互联，并未来支持8192颗芯片互联 [8] - 光模块技术面临成本高、对环境敏感（如灰尘、温度变化易导致闪断）等挑战，实现如电一般可靠、如光一般长距离传输难度很大 [8] - 华为凭借系统化创新实现了全光互联超节点，其能力源于自研芯片、光器件、底层协议以及在光通信领域超过20年的全球领先技术积累 [9] - 华为构建了新型互联协议“灵衢UB”（UnifiedBus），并将灵衢2.0规范开放，其基础协议长达600页，是业界最详细完整的协议，旨在与产业界共创繁荣生态 [11][12] 华为超节点的产品布局 - 华为不仅在发展智算超节点（如昇腾384），也在发展通算超节点，例如基于鲲鹏950处理器的TaiShan 950超节点，这是全球首个通用计算超节点，计划于2026年一季度上市 [9] - TaiShan 950超节点结合分布式GaussDB数据库，旨在取代各种应用场景的大型机、小型机以及Oracle的Exadata数据库服务器 [9] - 无论是智算还是通算超节点，其核心目标都是让大量服务器像一台计算机一样工作，提供超大带宽、超低时延和统一内存编址能力 [11] 软件生态与产业共建 - 支撑超节点运行的不仅有硬件，还包括大量软件生态，如异构计算架构CANN、操作系统openEuler、数据库openGauss、AI框架MindSpore等 [14] - 华为坚持软件开源开放，截至2025年8月，鲲鹏注册开发者达380万，昇腾开发者近400万，并将CANN从底层运行时到开发语言、算子库等完整开源 [14] - openEuler是业界首个面向超节点的开源操作系统，华为通过开放核心技术与产业协同共创，以应对AI时代快速迭代的挑战 [14]