AI网络

搜索文档
Ethernet跟InfiniBand的占有率越差越大
傅里叶的猫· 2025-06-21 20:33
Broadcom Tomahawk 6交换芯片 - 采用3纳米工艺技术,配备200G SerDes,支持102.4Tbps交换容量,是主流以太网芯片(51.2Tbps)的两倍[2] - 通过CPO技术集成光学引擎与交换硅芯片,优化功耗、延迟和TCO,单芯片价值低于2万美元[2] - 在Scale-out架构中可连接10万个XPU,减少67%光学模块和物理连接,Scale-up架构单芯片支持512个XPU单跳连接[3] - 认知路由2.0技术针对AI工作负载优化,集成全局负载均衡和动态拥塞控制功能[3] - 推动1.6T光学模块和DCI需求增长,加速CPO价值链商业化进程[4] AI网络架构技术对比 - Scale-out网络以InfiniBand和以太网Clos拓扑为主,InfiniBand因NVIDIA GPU优势初期占据主导[5][6] - Scale-up网络技术包括NVLink、UALink、SUE和Infinity Fabric,NVLink在超大规模数据中心领先[8] - 以太网通过UEC联盟推出超以太网协议,支持多路径传输和微秒级延迟,800G标准化提升竞争力[6] - InfiniBand XDR标准支持800Gb/s单端口带宽,功耗较NDR降低30%,NVIDIA Quantum-X CPO交换机基于此标准[7] - 谷歌自研OCS技术实现30%吞吐量提升和40%功耗降低,提供新型网络范式[7] 全球交换机市场趋势 - 2023-2028年OCS硬件销售CAGR达32%,超过以太网(14%)和InfiniBand(24%)交换机[10] - 云服务商将占2027年数据中心交换机销售的60%,推动800Gbps超越400Gbps[11] - 中国2024年数据中心交换机市场增长23.3%,200/400G设备收入增长132%[11] - 白盒交换机受云服务商青睐,Arista 2024年上半年市场份额首超思科达13%[11] - CPO交换机渗透率预计从2025年1%提升至2030年20%,市场规模2030年达128.77亿美元[12] Ethernet与InfiniBand竞争格局 - 全球超级计算机中78%采用RoCE以太网,65%使用InfiniBand,存在应用重叠[13] - 2022-2024年InfiniBand因NVIDIA GPU统治成为AI网络首选,以太网份额短期下滑[16] - 以太网凭借UEC协议和800G标准化重获动能,InfiniBand在可靠性上保持不可替代性[6][7]
SpaceX 组网引发连锁反应,AI 如何重塑卫星与车路云网络版图?
36氪· 2025-06-18 11:49
星链手机直连卫星技术突破 - SpaceX实现手机直连卫星组网成功,普通手机无需改造即可连接卫星互联网,已有300多颗具备该功能的卫星在轨运行[1][5] - 该技术突破对传统通信行业构成降维打击,尤其是对依赖地面基站的5G网络形成挑战[1] - 美国运营商T-Mobile已推出卫星互联网服务,高端套餐用户免费开通,其他套餐用户每月额外支付10-15美元[6] 卫星互联网与传统通信网络对比 - 传统地面基站网络存在成本高昂与覆盖受限两大硬伤,全球仍有32%人口(约26亿人)无法接入互联网[3] - 星链计划发射4.2万颗卫星,总成本约252亿美元(折合人民币1800亿元),远低于中国5G建设投入的7300亿元,且能实现真正全球覆盖[4] - SpaceX凭借可回收火箭技术大幅降低发射成本,2024年发射134次,超过其他国家总和[6] 卫星互联网在车联网领域的应用 - 低轨卫星通信成功验证网联自动驾驶系统,数据传输端到端时延小于100毫秒,满足自动驾驶需求[9][10] - 汽车因天线尺寸更大、仰角范围更广,成为卫星通信的理想载体,应用前景远超手机端[15] - 特斯拉计划2025年底实现汽车直连卫星网络,吉利、比亚迪等车企也在布局该领域[15] 卫星互联网与6G技术融合 - 卫星互联网将与地面网络深度融合,成为6G时代"泛在连接"的核心支撑技术[12] - 中国信通院明确星地一体融合组网是6G关键技术,将构建空基、天基、地基网络深度融合的全球通信体系[13] - 卫星互联网可弥补5G在超高可靠低时延通信方面的商业化不足,推动物联网、智能交通等领域发展[11][12] 全球卫星互联网竞争格局 - 中国将卫星互联网纳入"新基建",组建中国星网统筹产业发展,2024年底完成"国网"星座首次批量组网[14] - G60星座于2024年8月发射首批18颗组网卫星,显示中国在低轨互联网星座建设进入实质阶段[14] - 卫星互联网应用从传统通信向汽车、智慧城市、应急救灾等领域拓展,成为各国战略竞争高地[14][15] 卫星互联网与AI技术融合趋势 - SpaceX计划2026年部署集成AI加速芯片的第三代星链卫星,实现星上数据预处理与边缘计算[19] - 中国星网规划引入联邦学习技术,提升卫星群协同训练效率[19] - 未来AI网络将具备全域感知、云端认知推理和边缘实时交互三大特征,推动网络从连接工具向智能体跃迁[20]
聊一聊目前主流的AI Networking方案
傅里叶的猫· 2025-06-16 21:04
文章核心观点 - AI工作负载对网络架构提出全新需求,传统网络方案无法满足AI训练对低延迟和高带宽的要求,这正在重塑整个网络行业竞争格局 [2][3][6] - NVIDIA通过收购Mellanox获得InfiniBand技术,构建了计算与网络深度集成的全栈平台,在高性能AI训练互连领域占据90%份额 [7][9][12] - 博通和Arista等传统网络厂商面临架构不匹配挑战,其以太网解决方案虽在运营熟悉度上有优势,但难以克服物理性能限制 [13][14][16] - 光学互连技术(如Credo的共封装光学方案)可能成为未来颠覆性创新,解决铜互连的物理瓶颈 [19][25][30] - 思科的企业网络架构与AI需求存在根本性冲突,其解决方案针对南北向流量优化,而AI需要东西向流量模式 [21][22][23] AI网络与传统网络差异 - 传统网络遵循客户端-服务器模型,流量南北向流动,而AI训练需要数千GPU持续同步,产生东西向流量模式 [4][5] - AI训练依赖集体通信原语(如全归约),需要微秒级延迟,传统网络毫秒级延迟会显著增加训练时间和成本 [5] - AI带宽需求随模型复杂度呈指数级增长(如GPT-3到GPT-4),而非传统应用的线性增长 [6] - 传统网络为多样化场景设计,灵活性成为优势,而AI网络需要专用优化,灵活性反而增加延迟负担 [13][21] 主要厂商竞争格局 NVIDIA - 通过70亿美元收购Mellanox获得InfiniBand技术,构建计算+网络全栈平台 [7][9] - 三大核心技术:NVLink(机架内GPU直连)、InfiniBand(亚微秒级集群通信)、SHARP(网络交换机执行AI操作) [11] - 网络收入达50亿美元,环比增长64%,在高性能AI训练互连领域占据90%份额 [12] - CUDA和NCCL软件栈实现硬件深度优化,形成难以复制的生态壁垒 [10] 博通 - Tomahawk以太网交换芯片为全球70%超大规模数据中心提供动力,但可编程性设计不适合AI负载 [13] - 推出Jericho3-AI专用解决方案并拥抱SONiC开源系统,但仍处于防御地位 [14] - 依赖客户对以太网的运营偏好(尤其是云服务商)维持市场份额 [16] Arista - 凭借EOS网络操作系统快速创新,推出7800R3系列交换机优化AI负载 [15] - 软件优化无法克服以太网物理限制,在混合工作负载环境更具优势 [16] - 受益于客户对供应商多样化的需求 [16] Marvell与Credo - Marvell专注DPU和智能NIC,在边缘AI和推理场景有机会 [17] - Credo专注共封装光学技术,解决铜互连的发热、功耗和信号衰减问题 [19] - 两者都处于支持者角色,成功取决于光学转型速度和平台厂商整合程度 [18][20] 思科 - 企业网络架构与AI需求根本冲突,解决方案针对南北向流量优化 [21][22] - Silicon One计划缺乏AI专用优化,销售模式也不匹配超大规模采购流程 [23] - 可能在边缘AI部署中保留机会,但核心AI训练市场错位明显 [23] 未来技术趋势 - 光学互连:共封装光学技术可能突破铜互连物理限制,Credo等公司受益 [19][25][30] - 开放标准:UCIe和CXL等标准可能恢复模块化竞争,但面临平台厂商抵制 [30] - 替代架构:神经形态计算等新方法可能改变网络需求,创造新机会 [31] - 软件集成:全栈优化能力成为关键壁垒,NVIDIA当前领先但面临创新颠覆风险 [26][34] 客户需求差异 - 超大规模云商:技术优先但保持供应商多样性,同时采用NVIDIA和传统方案 [27] - AI原生公司:绝对性能优先,偏好NVIDIA集成方案 [27] - 传统企业:更看重基础设施整合和迁移路径,为思科/Arista创造机会 [28] - 不同客户群体的多元化需求为多种解决方案共存提供空间 [29]