Workflow
软件集成
icon
搜索文档
聊一聊目前主流的AI Networking方案
傅里叶的猫· 2025-06-16 21:04
文章核心观点 - AI工作负载对网络架构提出全新需求,传统网络方案无法满足AI训练对低延迟和高带宽的要求,这正在重塑整个网络行业竞争格局 [2][3][6] - NVIDIA通过收购Mellanox获得InfiniBand技术,构建了计算与网络深度集成的全栈平台,在高性能AI训练互连领域占据90%份额 [7][9][12] - 博通和Arista等传统网络厂商面临架构不匹配挑战,其以太网解决方案虽在运营熟悉度上有优势,但难以克服物理性能限制 [13][14][16] - 光学互连技术(如Credo的共封装光学方案)可能成为未来颠覆性创新,解决铜互连的物理瓶颈 [19][25][30] - 思科的企业网络架构与AI需求存在根本性冲突,其解决方案针对南北向流量优化,而AI需要东西向流量模式 [21][22][23] AI网络与传统网络差异 - 传统网络遵循客户端-服务器模型,流量南北向流动,而AI训练需要数千GPU持续同步,产生东西向流量模式 [4][5] - AI训练依赖集体通信原语(如全归约),需要微秒级延迟,传统网络毫秒级延迟会显著增加训练时间和成本 [5] - AI带宽需求随模型复杂度呈指数级增长(如GPT-3到GPT-4),而非传统应用的线性增长 [6] - 传统网络为多样化场景设计,灵活性成为优势,而AI网络需要专用优化,灵活性反而增加延迟负担 [13][21] 主要厂商竞争格局 NVIDIA - 通过70亿美元收购Mellanox获得InfiniBand技术,构建计算+网络全栈平台 [7][9] - 三大核心技术:NVLink(机架内GPU直连)、InfiniBand(亚微秒级集群通信)、SHARP(网络交换机执行AI操作) [11] - 网络收入达50亿美元,环比增长64%,在高性能AI训练互连领域占据90%份额 [12] - CUDA和NCCL软件栈实现硬件深度优化,形成难以复制的生态壁垒 [10] 博通 - Tomahawk以太网交换芯片为全球70%超大规模数据中心提供动力,但可编程性设计不适合AI负载 [13] - 推出Jericho3-AI专用解决方案并拥抱SONiC开源系统,但仍处于防御地位 [14] - 依赖客户对以太网的运营偏好(尤其是云服务商)维持市场份额 [16] Arista - 凭借EOS网络操作系统快速创新,推出7800R3系列交换机优化AI负载 [15] - 软件优化无法克服以太网物理限制,在混合工作负载环境更具优势 [16] - 受益于客户对供应商多样化的需求 [16] Marvell与Credo - Marvell专注DPU和智能NIC,在边缘AI和推理场景有机会 [17] - Credo专注共封装光学技术,解决铜互连的发热、功耗和信号衰减问题 [19] - 两者都处于支持者角色,成功取决于光学转型速度和平台厂商整合程度 [18][20] 思科 - 企业网络架构与AI需求根本冲突,解决方案针对南北向流量优化 [21][22] - Silicon One计划缺乏AI专用优化,销售模式也不匹配超大规模采购流程 [23] - 可能在边缘AI部署中保留机会,但核心AI训练市场错位明显 [23] 未来技术趋势 - 光学互连:共封装光学技术可能突破铜互连物理限制,Credo等公司受益 [19][25][30] - 开放标准:UCIe和CXL等标准可能恢复模块化竞争,但面临平台厂商抵制 [30] - 替代架构:神经形态计算等新方法可能改变网络需求,创造新机会 [31] - 软件集成:全栈优化能力成为关键壁垒,NVIDIA当前领先但面临创新颠覆风险 [26][34] 客户需求差异 - 超大规模云商:技术优先但保持供应商多样性,同时采用NVIDIA和传统方案 [27] - AI原生公司:绝对性能优先,偏好NVIDIA集成方案 [27] - 传统企业:更看重基础设施整合和迁移路径,为思科/Arista创造机会 [28] - 不同客户群体的多元化需求为多种解决方案共存提供空间 [29]