特写|万卡集群的“神经枢纽”

AI算力集群正加速向万卡、十万卡级规模迭代,高速互连网络作为算力高效释放的"神经枢纽",其性能、扩展性与稳定性直接决定集群整体效能。大规模 集群组网需兼顾高带宽、低延迟与无损传输,同时要适配算力指数级增长的扩展需求,还要控制组网成本与故障风险,现有方案难以全面平衡这些核心诉 求。 中科曙光历经三年攻坚推出的scaleFabric,作为国内首款类InfiniBand原生无损RDMA高速网络,精准直击行业难点,为超大规模集群筑牢高效稳定的网络 底座。 ▍生态兼容+扩展突破,释放核心实用价值 在应用生态上,scaleFabric提供原生RDMA verbs接口,完美兼容现有IB应用生态,让并行计算、大模型训推等应用无需修改代码即可无缝迁移,实现应用 无感适配。在超大规模扩展能力上,它突破IB协议五万卡级的局限,单子网支持超十万卡扩展,通过多轨技术,可实现百万卡级集群部署,契合AI算力 指数级增长需求,这一优势已在scaleX万卡超集群中得到验证,支撑系统总算力突破5EFlops。 ▍自主创新赋能,兼顾可靠与成本优势 面对高端SerDes IP"卡脖子"困境,曙光自研112G PAM4高速SerDes IP,从底层保 ...

特写|万卡集群的“神经枢纽” - Reportify