Workflow
RDMA
icon
搜索文档
部分指标赶超英伟达!国产首款400G原生RDMA问世
上海证券报· 2026-03-12 22:24
公司产品发布与技术突破 - 中科曙光于3月12日正式发布首款国产400G原生无损RDMA高速网络产品scaleFabric [2] - 该系列网络产品技术规格全面对标英伟达NDR,并在部分指标上实现赶超 [2][4] - 产品从核心IP、交换芯片、网卡到交换机、驱动与管理软件均实现自主研发,构建起从硬件到软件的完整技术体系 [6] 产品性能规格与优势 - scaleFabric400网卡基于PCIe5.0接口,端口带宽达400Gbps,端到端通信时延低至0.9微秒 [6] - scaleFabric400交换机单端口带宽达800Gbps,整机交换容量可达双向64Tbps,交换时延约260纳秒 [6] - 与英伟达NDR相比,该产品在交换机端口密度提升25%,网卡最大QP数支持提升100%,单子网互连规模是传统IB的2.33倍 [8] - 该网络系统可轻松支持最大11.4万卡集群部署,同时网络总成本可降低30% [8] 产品稳定性与大规模验证 - 产品采用基于信用的无损流控机制,链路故障恢复时间小于1毫秒 [8] - 该系统方案已完成近万卡规模验证,并稳定运行超过10个月 [2][8] - 该网络系统已支撑近万卡集群持续稳定运行验证超10个月 [8] 实际应用与落地案例 - 国产万卡级scaleFabric网络已在郑州国家超算互联网核心节点落地应用 [9] - 郑州节点部署了3套国产万卡级scaleX智算集群系统,总规模达3万卡 [10] - 运行数据显示,该网络系统在大规模集群环境中保持稳定运行,支持跨POD组网及大规模并行训练任务 [11] 行业意义与公司战略 - RDMA高速网络正成为智算集群的“算力大动脉”,对满足大模型训练的超低延迟、超高带宽和无损传输要求至关重要 [4] - 此次突破有效填补了国产集群在“高速互联”技术领域的空白 [2] - 国产原生RDMA网络的落地,意味着我国在智算互联这一关键环节开始形成自主技术路径 [13] - 中科曙光已形成“算—存—网”协同发展的完整算力底座能力,为大规模AI基础设施提供系统级支撑 [13] - 随着产品在超大规模智算集群中的落地应用,国产原生RDMA技术路线正逐步走向成熟,相关高性能网络产业生态正在加速形成 [13]
以太网 vs Infiniband的AI网络之争
傅里叶的猫· 2025-08-13 20:46
核心观点 - AI网络技术路线中以太网与InfiniBand的竞争格局已基本明确 以太网将在AI训练和推理场景中胜出 主要基于成本优势、生态兼容性和规模化部署能力[6][8][22][23] - 当前AI网络市场仍由InfiniBand主导 主要受英伟达服务器市占率超过70%的影响 但存在设备成本高和供应链依赖问题[8][14] - 超以太网联盟(UEC)已成立 目标是通过优化传统以太网性能 在AI领域与InfiniBand直接竞争 创始成员包括英特尔、AMD、博通、思科、微软、Meta等头部厂商[8] AI网络技术选型关键问题 - 部署选择:需考虑是否在现有TCP/IP网络上搭建 或建设专用高性能网络[9] - 技术路线:InfiniBand与RoCE v2的取舍 涉及带宽、时延、成本等多维度比较[9][12] - 运维管理:网络故障诊断与恢复机制[9] - 多租户能力:需同时满足内部研发和对外算力服务需求[9] 网络性能需求背景 - 大模型参数量已达百亿至千亿级 自动驾驶单次训练数据规模常达PB级[10] - GPT-3量级模型需要约2TB GPU显存 必须采用分布式训练将训练时间从三十年压缩至数周[10] - 分布式系统效率瓶颈在于通信时延 单步训练时延=GPU计算时间+通信时间[10] RDMA技术对比 - 主流技术路线收敛至InfiniBand和RoCE v2 RoCEv1和iWARP已基本退出市场[12] - RoCEv2通过UDP/IP封装实现三层可达 支持ECMP负载均衡 更适合复杂拓扑[12] - 延迟表现:实验室环境下 RoCE约5µs InfiniBand约2µs 显著优于传统TCP/IP的50µs[12] InfiniBand技术特征 - 典型组网:子网管理器(SM)+IB网卡+交换机+专用线缆/光模块[13] - 端口速率:HDR 200Gbps已商用 NDR 400Gbps正在落地 Quantum-2交换机支持64×400G连接[13] - 核心优势:原生无损传输(基于credit流控)和自适应路由能力[14][15] - 市场格局:英伟达市占率超70% 但Intel、Cisco、HPE等也有相关产品[14] RoCE v2技术特征 - 组网架构:标准以太网数据中心网络+支持RoCE的NIC和交换机[15] - 端口速率:50Gbps起步 商用产品已支持400Gbps[15] - 生态优势:沿用现有以太网布线标准 光模块体系兼容性强[15] - 工程挑战:需精细调优PFC、ECN等参数才能实现大规模无损传输[15] 直接性能对比 InfiniBand优势 - 带宽/速率高:专注端口速率快速提升[20] - 传输时延低:单跳转发时延<100ns[20] - 在网计算能力:交换机可理解业务报文[20] - 无损传输:基于credit的链路级流控[20] 以太网优势 - 线缆带宽和端口速度优于InfiniBand[21] - 大集群组网仅需两层结构 规模可达InfiniBand的4倍[21] - 动态负载平衡、端到端拥塞管理等特性更完善[21] - 整体功耗更低 交换机数量少3倍[21] 应用场景趋势 - 推理场景:以太网更适配 因其与前端网络兼容性好 且支持多租户[22][23] - 训练场景:InfiniBand当前占优 但以太网通过RoCE v2正在追赶[8][15] - 成本因素:以太网部署成本显著低于InfiniBand[21][23]