以网强算,破局万亿模型训推瓶颈——新华三超节点打造AI基础设施新范式

行业背景与市场需求 - 大模型发展进入“技术摸高”与“工程创新”并行的新阶段,高参数量MoE大模型成为主流,市场对高性能算力需求呈爆发式增长 [2] - 在大模型商用落地阶段,各大厂商的首要考量是降低每Token成本,训推效率成为在AI时代抢占市场先机的关键 [2][3] - 传统跨节点(Scale-out)组网方式在应对百卡、千卡级大模型训推需求时,巨大的通信开销导致算力利用率大幅下降,GPU等待和空转问题突出 [3] 技术挑战与解决方案 - 万亿级参数成为常态,大模型训练数据传输量和频率激增,张量并行、专家并行等训练模式对GPU间带宽和时延提出极高要求 [3] - 大模型推理阶段广泛采用PD分离技术,Decode阶段需频繁访问KV Cache,对显存容量和带宽要求极高 [4] - 破局的关键在于采用Scale-up架构实现GPU多卡全互联,以此打破“通信墙”,提升GPU利用效率,减少空闲 [3] - 超节点技术通过节点内GPU直接高速互联,相比跨节点通信可提高数倍带宽,大幅缩减传统多机多卡训练的通信开销,实现“以网强算” [3] - 超节点支持计算与存储资源独立扩展,为Prefill和Decode阶段分别配置高算力与大内存节点,避免资源浪费,其多卡高速直联特性可大幅降低推理时延,确保KV Cache快速同步,天然适配PD分离场景 [4] 新华三H3C UniPoD S80000产品核心特性 - 产品基于“算力×联接”技术理念,以算力芯片多元化、互联协议标准化、基础设施集成化为核心设计理念 [5] - 采用Scale-up架构实现柜内GPU全互联,相比传统8卡服务器组网,卡间互联带宽提升8倍,单卡推理效率提升80% [1][5] - 支持液冷高密部署,单柜可支持64卡超节点部署,并兼容下一代高性能AI加速卡 [5] - 产品兼容多款国内外主流GPU,支持多品牌GPU兼容适配 [1][7] 产品稳定性与可维护性 - 公司高度重视大模型训练的长稳性,通过软硬件协同调优保障训练连续性,避免因中断导致的进度丢失、资源浪费和模型性能退化 [7] - 在硬件层面,针对数百卡以上超节点规模,公司积极投入节点级光互联技术研发,旨在利用光技术的高速、低延迟、低能耗优势,同时致力于降低光学器件的高故障率,以提供稳定可靠的商用产品 [7] 市场应用与未来规划 - 目前,该超节点产品已在多个大型智算项目中完成集群化部署并落地 [1][7] - 公司正积极推动产品向1024卡以上超大规模全互联演进,并持续开展与上下游生态伙伴的软硬件协同开发和调优工作 [1][7] - 公司表示将以超节点技术为路标,持续深化“算力×联接”理念,构建性能强劲、多元开放、持续进化的算力基础设施 [8] 案例点评与行业意义 - 在算力堆砌难以为继的背景下,新华三超节点体现了从“算力堆叠”向“算力质效”转型的战略前瞻性 [9] - 该方案通过将高速互联从跨节点下沉至节点内全互联,有效打破通信瓶颈,显著提升GPU利用效率 [9] - 公司在追求极致性能的同时,高度重视稳定性与可维护性,回应了产业对AI基础设施“既快又稳”的双重期待 [9] - 这一实践为国产智算基础设施树立了技术标杆,为构建自主可控、高效绿色的大模型生态提供了支撑 [9]