行业背景与挑战 - 在AI大模型参数迈向万亿、算力集群规模从千卡向十万卡逼近的背景下,决定系统效率的关键已从单张GPU算力转变为成千上万张卡能否高效互联协同工作[1] - 研究表明,在大规模分布式训练中,网络通信耗时占比已达到30-50%,这意味着近一半的计算资源可能浪费在等待数据传输上[4] - 当集群规模从千卡扩展到万卡,节点间通信路径和潜在冲突呈指数级增长,十万节点集群的稳定协同运行面临巨大技术挑战[4] - 以GPU为核心的服务器对高速网络的需求急剧膨胀,相比以CPU为核心的传统数据中心,高速网络用量提高了10到20倍[6] 技术路线与市场格局 - 数据中心高速网络存在两条主流技术路线:RoCE和InfiniBand[7] - RoCE路线基于传统以太网嫁接RDMA能力,部署门槛低但存在拥塞控制、无损传输和扩展性短板,难以满足超大规模集群需求[7] - InfiniBand是专为高性能计算设计的原生路线,在带宽、时延、无损传输等关键指标上均为顶级水准,全球约60%的高性能计算系统采用此架构[7][10] - InfiniBand的核心技术、商用设备及生态几乎被英伟达独家掌控,形成了技术壁垒和商业捆绑,对国产AI算力构成潜在断供风险[10] 公司产品与突破 - 中科曙光于3月12日正式发布首款全栈自研的400G原生无损RDMA高速网络——scaleFabric,从底层112G SerDes IP、硬件设备到上层管理软件实现100%自研[2] - 该产品被评价为“补齐了国产高速网络的短板”,填补了国产算力在高速互联网络领域的关键空白[2] - 公司研发团队在评估了购买IP、二次开发开源方案及RoCE路线等所有技术捷径后,发现均无法满足要求,最终选择从底层物理层开始全栈自研原生IB体系[11][12] 产品价值与影响 - 高速互联网络已从算力基础设施的配角,转变为增量最大的主角,其性能直接决定整个计算系统的性能下限,甚至可能使性能归零[4] - 补齐通信性能短板后,大规模计算的算力利用率可以从百分之六七十提升到80%至90%,在算力昂贵的背景下,每提高十个百分点都意味着巨大的经济效益[5] - 我国已建成42个万卡智算集群,智能算力规模超过1590 EFLOPS,高速互联网络的自主可控对于保障国产算力集群的持续发展至关重要[1]
应对 英伟达第二次“卡脖子”,中国正补齐关键短板