特写|万卡集群的“神经枢纽”

行业背景与核心诉求 - AI算力集群正加速向万卡、十万卡级规模迭代,高速互连网络作为算力高效释放的“神经枢纽”,其性能、扩展性与稳定性直接决定集群整体效能 [1][7] - 大规模集群组网需兼顾高带宽、低延迟与无损传输,同时要适配算力指数级增长的扩展需求,还要控制组网成本与故障风险,现有方案难以全面平衡这些核心诉求 [1][7] 公司产品定位与意义 - 中科曙光历经三年攻坚推出scaleFabric,作为国内首款类InfiniBand原生无损RDMA高速网络,精准直击行业难点,为超大规模集群筑牢高效稳定的网络底座 [1][7] - scaleFabric的发布填补了国内原生RDMA网络的技术空白,开启了InfiniBand网络国产化替代的新篇章 [6][12] 产品性能与技术指标 - scaleFabric在带宽与延迟指标上对齐国际主流产品 [3][9] - 其交换芯片端口密度达80口400G,较同类产品提升25% [3][9] - 产品沿用与InfiniBand一致的信用流控及链路层重传机制,实现真正无损传输,相较RoCE网络更适配超大规模智算场景 [3][9] - 产品可做到即插即用,大幅降低用户优化成本 [3][9] 生态兼容性与扩展能力 - scaleFabric提供原生RDMA verbs接口,完美兼容现有InfiniBand应用生态,让并行计算、大模型训练推理等应用无需修改代码即可无缝迁移 [4][10] - 在超大规模扩展能力上,它突破InfiniBand协议五万卡级的局限,单子网支持超十万卡扩展 [4][10] - 通过多轨技术,可实现百万卡级集群部署,契合AI算力指数级增长需求 [4][10] - 该扩展优势已在scaleX万卡超集群中得到验证,支撑系统总算力突破5 EFlops [4][10] 自主创新与成本优势 - 面对高端SerDes IP“卡脖子”困境,公司自研112G PAM4高速SerDes IP,从底层保障复杂环境下的信号可靠性 [6][12] - 针对光模块故障痛点,研发毫秒级链路故障路由恢复技术,且恢复时间不随网络规模增长而延长 [6][12] - 配合数字孪生运维系统,将集群可用性提升至99.99% [6][12] - 依托端口密度优势,其组网成本较InfiniBand降低约30% [6][12] 产业影响与战略 - 公司秉持开放架构理念,向合作伙伴共享技术成果,推动产业链协同创新,加速我国超算与智算产业自主化进程 [6][12]