scaleFabric高速网络
搜索文档
提气!一张全自研高速网正撑起中国算力大动脉
第一财经· 2026-03-13 11:09
行业背景与趋势 - 大模型训练算力需求呈指数级增长,每3.5个月翻一番,人工智能集群性能每9个月翻一番[5] - 全球AI基础设施建设竞赛激烈,海外有投资80亿欧元的“欧洲智算云”等计划,国内算力总体规模位居全球第二[6] - 算力与网络的效率失衡成为核心瓶颈,通信耗时在稠密模型中占10%-20%,在MoE模型中高达40%-60%,制约大模型发展[6][7] - AI应用热潮加剧算力网络压力,数百万个智能体在全球终端运行,推动海量数据在计算卡间高速穿梭[5] - 算力供给模式正从“单体超算/智算”向大规模、标准化、模块化的“集群智算”转变[15] 技术瓶颈与竞争焦点 - 超大规模智算集群已成为全球AI竞争的关键焦点[1][5] - 当前智算网络普遍面临时延过高、算网协同难、运维复杂等瓶颈[5] - 传统RDMA实现路径存在生态封闭或性能短板问题,行业正走向融合与自研[5] - 随着训练规模迈向万卡级,智算基础设施进入“网络定义算力效率”的新阶段[1] - 在算力堆叠到一定程度后,决定集群价值的核心变量是让算力“跑起来”的网络效率,而非单点芯片性能[3][7] 高速网络技术路线对比 - 高速网络主要存在InfiniBand(IB)和RoCE两条技术路线[10] - IB网络类似“高铁”,采用基于信用的流控和虚切通交换机制,实现真正的无损网络,交换延时低至100纳秒级别,支持数万节点以上的超大规模组网[10][11] - RoCE网络类似“公路交通”,采用PFC暂停机制,易造成风暴或死锁,实现无损需复杂优化,多适合中小规模组网,且配置复杂[10][11] - 在高端市场,InfiniBand与GPU深度绑定,是大模型训练的“黄金组合”,此前市场几乎由英伟达主导[12] - 进口IB组网方案成本较RoCE方案高50%以上,且国内市场面临成本高、供货受限、技术支持慢的三重困境[12] 公司产品突破与优势 - 中科曙光推出首款国产Infiniband原生无损RDMA高速网络scaleFabric,实现了从底层112G SerDes IP、硬件设备到上层管理软件的100%全栈自研[7][13] - scaleFabric产品性能卓越:网卡带宽达400Gbps,交换机单端口带宽达800Gb/s,端到端传输延迟低于1微秒[8] - 在扩展性上,scaleFabric单子网集群规模可扩展至11.4万张卡,网络总体成本较进口IB方案降低约30%[8][15] - 在可靠性上,拥有自研112G SerDes IP保障稳定性,链路故障路由恢复时间小于1微秒[8] - 产品点对点延迟已与国际顶尖水平持平,支持超大规模组网,并兼容所有智算及超算应用场景[8] 市场影响与产业意义 - scaleFabric的发布填补了国内在超大规模智能计算高速互联领域的关键空白[15] - 该方案显著降低了高性能网络门槛,其IB集中式管理实现了“即插即用”,用户无需专门维护团队即可运行万卡集群[15] - 在国家超算互联网核心节点,该方案仅用36小时完成网络部署,较一般RoCE网络缩短数倍,并已稳定承载3套万卡集群运行[13] - 方案试运行一个月服务超10000名用户,并已实现近万卡规模持续稳定运行超10个月[13] - 公司通过设立“数据中心网络优化项目组”,联合行业推动自主网络标准制定,旨在抢占下一代AI算力制高点[16] 未来展望 - 算力网络正从“辅助连接”向“核心算力组件”角色转变,其性能直接决定集群的线性扩展能力和有效算力利用率[15] - 随着集群规模扩大,掌握高速互联技术等于握住了下一代大模型竞赛的入场券[16] - 行业对更高带宽产品需求持续膨胀,IBTA组织预计到2028年将需要1.6Tb/s的IB产品[15] - 国内算力建造者正努力从市场参与者转向规则制定者,从追赶者转变为并跑者[16]