Workflow
Bluefield DPUs
icon
搜索文档
NVIDIA AI Ecosystem Expands as Marvell Joins Forces Through NVLink Fusion
Globenewswire· 2026-03-31 20:00
战略合作核心 - NVIDIA与Marvell宣布建立战略合作伙伴关系 旨在通过NVIDIA NVLink Fusion™将Marvell接入NVIDIA AI工厂和AI-RAN生态系统 为客户提供更多选择和灵活性 [1] - NVIDIA已向Marvell投资20亿美元 [2] - 合作将基于NVIDIA NVLink Fusion展开 这是一个机架级平台 使客户能够利用NVIDIA NVLink™生态系统开发半定制AI基础设施 [2] 合作技术细节与分工 - Marvell将提供定制XPU和兼容NVLink Fusion的纵向扩展网络 [2] - NVIDIA将提供包括Vera CPU、ConnectX NICs、Bluefield DPUs、NVLink互连、Spectrum-X™交换机以及机架级AI计算在内的支持技术 [2] - 对于开发定制XPU的客户 NVLink Fusion可实现与NVIDIA系统完全兼容的异构AI基础设施 允许与NVIDIA GPU、LPU、网络和存储平台无缝集成 同时利用NVIDIA丰富的技术栈和全球供应链生态系统 [3] 合作扩展领域 - 双方将合作通过NVIDIA Aerial AI-RAN for 5G/6G 将全球电信网络转变为AI基础设施 [4] - 合作将推进面向AI的世界级网络 包括先进的光互连解决方案和硅光子技术 [4] 管理层观点与行业背景 - NVIDIA创始人兼CEO黄仁勋表示 推理拐点已至 Token生成需求激增 世界正竞相建设AI工厂 与Marvell的合作将使客户能够利用NVIDIA的AI基础设施生态系统并扩展以构建专业AI计算 [5] - Marvell董事长兼CEO Matt Murphy表示 与NVIDIA的扩展合作反映了高速连接、光互连和加速基础设施在扩展AI方面日益增长的重要性 通过NVLink Fusion将Marvell在高性能模拟、光DSP、硅光子和定制芯片领域的领导地位与NVIDIA不断扩展的AI生态系统连接 使客户能够构建可扩展、高效的AI基础设施 [5]
NVIDIA 的 InfiniBand 问题:Spectrum-X AI 架构、Tomahawk-5、Jericho-3AI 与 Quantum-2-Nvidia’s InfiniBand Problem - Spectrum-X AI Fabric, Tomahawk-5, Jericho-3AI, Quantum-2
2025-08-11 09:21
行业与公司 - 行业涉及AI基础设施、网络交换技术和高性能计算(HPC) - 公司包括Nvidia、Broadcom、Marvell、Arista Networks、Microsoft、Meta等[1][4][30] 核心观点与论据 Nvidia的网络技术竞争 - Nvidia在AI基础设施中面临InfiniBand与Ethernet的内部竞争 - 产品线包括Quantum InfiniBand和Spectrum Ethernet,直接竞争AI基础设施市场[4] - Broadcom同样存在Tomahawk和Jericho产品线的重叠[4] - InfiniBand的技术问题 - 信用流控制机制导致资源耗尽、死锁和性能波动[16][17] - 大规模集群(如16,000 GPU)性能下降[19][21] - 成本高:Quantum-2(25.6T)落后于Spectrum-4(51.2T),部署成本更高[24][27] Ethernet的优势与RoCE++ - 超大规模需求更倾向于Ethernet而非InfiniBand[5] - RoCE++(基于Ethernet的RDMA)在AI应用中性能优于标准Ethernet[5][33] - Spectrum-X AI网络通过线性直驱降低成本和功耗[28][32] - RoCE++的改进 - 选择性确认(SACK)和显式拥塞通知(ECN)提升可扩展性[35][40] - 支持更高错误率(10^-15至10^-16),适合AI工作负载[32] Nvidia的战略调整 - 从InfiniBand转向Ethernet - 推出Spectrum-X AI网络,迎合云服务商需求[45] - 使用Bluefield DPU替代ConnectX-7 NIC,解决队列对扩展问题[41][42] - InfiniBand的潜在保留价值 - SHARP协议(计算内联)可加速模型训练,但应用有限[47][51] 其他重要内容 市场动态与竞争 - Broadcom的Tomahawk-5和Jericho-3AI在51.2T交换机市场领先[24][26] - Marvell因未参与光学网络技术变革(如线性直驱)面临挑战[30][31] 技术细节 - InfiniBand的局限性 - 无法适应动态推理工作负载(如可变请求流)[22] - 与Ethernet前端系统集成困难[25] - Ethernet的弹性设计 - TCP/IP协议补偿底层丢包,适合大规模网络[8][9] 成本与部署 - InfiniBand部署成本显著高于Ethernet - 8,192 GPU集群需448交换机(InfiniBand)vs 192(Ethernet)[27] - 高成本光学线缆需求进一步增加开支[27] 数据引用 - GPT-4训练成本:0.02美分/1,000 tokens[20] - SHARP协议延迟降低:8B MPI_AllReduce操作延迟减少2.1倍(6.01μs→2.83μs)[51]