AI计算架构的演进与“超节点”的本质 - AI行业的竞争焦点已从堆叠模型参数和服务器,转向底层计算架构的“系统级对决” [1] - “超节点”成为计算产业的新方向,但部分产品存在技术变形,仅将多台服务器堆叠于机柜并宣称打破摩尔定律 [2] - 真正的“超节点”需实现“内存统一编址”,否则本质仍是传统服务器堆叠架构 [2] 传统架构瓶颈与“超节点”的兴起 - 大模型时代,传统Scale Out集群架构面临“三堵墙”挑战:通信墙、功耗与散热墙、复杂度墙 [3] - 通信墙问题突出:大模型训练中通信频次呈指数级增长,微秒级延迟累积导致计算单元长时间等待,限制算力利用率 [3] - 硬件堆砌带来复杂度墙:万卡乃至十万卡集群运维复杂,大模型训练中需每隔几小时处理一次故障 [3] - 新算力需求驱动变革:大模型走向全模态融合,上下文长度达兆级、训练数据高达100TB,部分场景时延要求小于20毫秒,传统架构已成瓶颈 [3] “通信墙”的技术原理与“超节点”的核心指标 - 传统集群“存算分离”与“节点互联”导致数据访问延迟:GPU间数据访问需经历数据搬移、协议封装、网络传输、解包重组、数据写入五步骤,存在几毫秒延迟 [6][7][8][9][10] - 大模型训练中高频次芯片间同步使此延迟问题放大,严重影响效率 [10] - 业界提出“超节点”概念,并规定三大硬性指标:大带宽、低时延、内存统一编址 [10] - “内存统一编址”是核心:旨在构建全局唯一虚拟地址空间,使集群内所有芯片内存资源如同一张地图,消除“序列化与反序列化”开销,从而打破通信墙 [12] 实现“内存统一编址”的技术挑战 - 实现难点在于“通信语义”的代际差,涉及通信协议、数据所有权和访问方式 [13] - 两种主流通信方式对比:面向分布式协作的“消息语义”(如寄快递)存在打包、拆包延迟和CPU开销;面向并行计算的“内存语义”(如从书架上拿书)效率更高 [15][16] - TCP/IP、InfiniBand、RoCE v2等协议支持消息语义,是通信墙的直接诱因;而灵衢、NVLink等协议已支持内存语义 [16] - 实现内存语义的皇冠明珠是“缓存一致性”,需确保所有计算单元看到的内存信息同步 [16] - 实现内存语义需满足两个条件:支持内存地址传输的通信协议与缓存一致性协议;以及充当“翻译官”的交换芯片,以整合全局地址空间 [16][17] - “伪超节点”多采用PCIe+RoCE协议:RoCE跨服访问仍需RDMA,不支持统一内存语义与硬件级缓存一致性;PCIe单lane理论带宽64GB/s,比超节点要求低一个数量级,导致无法实现全局内存池化与内存语义访问 [19] “超节点”与“内存统一编址”的应用价值 - 模型训练:解决HBM显存瓶颈。传统“Swap to CPU”方式因PCIe带宽低且需CPU参与,数据搬运时间可能长于计算时间 [21]。真正超节点架构下,CPU内存与NPU显存同址,可采用“以存代算”策略,将数据offload至CPU内存并按需快速拉回,使NPU利用率提升10%以上 [23] - 模型推理:实现KV Cache全局池化与Prefix Cache复用。传统集群KV Cache绑定单卡显存,无法跨节点借用 [24]。内存统一编址后,固定System Prompt只需全局存储一份,支持“一存多取”。PreFix Cache命中率100%时,集群吞吐性能可提升3倍 [26] - 推荐系统:优化超大规模Embedding表访问。传统RoCE等“寄快递”方式处理小包时,打包拆包开销大,导致门铃效应与高延迟 [28]。利用内存统一编址与硬件级内存传输引擎,计算单元可直接读取远端内存,实现请求流水线化,极大降低通信延迟,提升端到端推荐效率 [30] - 三大能力(大带宽、低时延、内存统一编址)协同,方能使集群像一台计算机一样工作,成为大模型训练与推理的完美基础设施 [30] 行业竞争格局与发展方向 - AI基础设施竞争已从硬件堆砌上升至体系结构竞争 [31] - “内存统一编址”是通往下一代计算范式的关键,是实现“One NPU/GPU”能力、打破物理服务器围墙的核心 [31] - 仅停留在“服务器暴力堆叠”的产品将难以适应AGI时代的算力需求 [31]
拆开“超节点”的伪装:没有内存统一编址,仍是服务器堆叠
36氪·2026-02-02 16:05