NVSwitch
搜索文档
Switch芯片研究框架(一):GPU-GPU互连,从Scale-Up到Scale-Out的格局如何?
东吴证券· 2025-09-30 14:03
报告行业投资评级 - 行业投资评级为“增持”,且为“维持” [1] 报告核心观点 - 报告核心观点聚焦于AI算力基础设施中的Switch芯片,特别是GPU互连技术从Scale-Up到Scale-Out的格局演变 [1] - 国际厂商如NVIDIA、博通、Marvell等在技术和市场份额上领先,但国内厂商在国产替代路径上已实现多点突破,呈现百花齐放态势 [6] - 投资建议重点推荐在国产替代生态中卡位优势显著的公司 [6] Switch芯片厂商格局 - NVIDIA凭借其私有协议NVSwitch占据主要市场份额,NVSwitch是业界带宽最高、部署最成熟的私有方案,经历了六代演进 [6][11] - 博通在云端数据中心交换机市场市占率达九成,推出基于以太网络的SUE开放架构,其Tomahawk Ultra芯片带宽为51.2 Tbps,Tomahawk 6芯片带宽达102.4 Tbps [6][13][16] - Astera Labs是唯一同时掌握交换芯片、延长线、软件管理平台的厂家,其Scorpio X系列已通过NVIDIA Blackwell平台验证,并布局PCIe/UALink双模 [6][20] - Marvell提供51.2Tbps的Teralynx 10交换芯片,延迟低至500纳秒,运行功耗低至1W/100G端口 [6][31][33] - 博通产品线覆盖全面,拥有高端的Tomahawk、中端的Trident和低端的Jericho三大系列,其中Tomahawk 5支持51.2Tbps容量,较早期产品实现80倍带宽提升并降低90%以上能耗 [26][30] 国产替代路径:独立交换芯片厂商 - 盛科通信是国内以太网交换芯片市场的领先企业,产品覆盖100Gbps-25.6Tbps交换容量及100M到800G端口速率,其12.8T/25.6T高端芯片已进入客户推广阶段 [6][35] - 盛科通信营业收入从2019年的1.92亿元增长至2024年的10.82亿元,以太网交换芯片业务占比不断提升 [37] - 数渡科技在PCIe 5.0交换芯片领域率先进入客户导入和小批量阶段,预计2025年底有望实现国产替代突破 [6][39][41] - 澜起科技以Retimer为切入点,正构建完整的PCIe/CXL互联产品族,其PCIe 6.x/CXL 3.x Retimer已送样,技术指标达国际先进水平 [6][42] 国产替代路径:大厂自研交换芯片 - 海光信息已开放其CPU互联总线协议(HSL),布局CPU、GPU、Switch互联,初步形成算力基础设施全覆盖 [6][43] - 华为发布单芯片51.2T数据中心盒式液冷交换机,并开放“灵衢”互联协议2.0技术规范,其超节点产品支持8192卡及15488卡规模 [6][45][49] - 中兴通讯已形成自研交换/NP芯片全栈布局,其第五代自研交换芯片支持GPU间通信带宽达400GB/s至1.6TB/s [6][50] - 新华三自主研发智擎系列可编程NP芯片,智擎660芯片接口吞吐能力达1.2Tbps,集成度超过180亿晶体管 [6][51]
CPU和CPU,是如何通信的?
半导体行业观察· 2025-09-29 09:37
文章核心观点 - 文章系统阐述了人工智能和高性能计算系统中,CPU与GPU之间以及GPU与GPU之间的数据通信技术演进,重点分析了传统通信方式的瓶颈以及NVIDIA推出的GPUDirect系列技术、NVLink和NVSwitch等优化方案如何通过减少数据拷贝次数、提供高带宽直连来显著提升数据传输效率 [3][6][7][11][12][14][15][19][20][24][25][27][28] GPU与存储系统的通信 - 传统数据加载流程需经过系统内存中转,涉及两次数据拷贝:第一次从NVMe SSD通过DMA技术经PCIe总线拷贝到系统内存,第二次通过CUDA的cudaMemcpy函数经PCIe总线将数据从系统内存拷贝到GPU显存 [6] - 传统方式存在冗余的数据拷贝过程,导致效率瓶颈 [6] - GPUDirect Storage技术优化了此流程,它提供了存储设备与GPU显存的直接通路,允许网卡或存储系统的DMA引擎直接向GPU显存读写数据,减少了CPU和系统内存的瓶颈,显著提升了数据密集型应用的性能 [6][7] GPU之间的数据流动 - 传统GPU间通信需通过系统内存中的共享固定内存中转,数据从GPU0显存经PCIe拷贝到系统内存,再经PCIe拷贝到GPU1显存,过程存在多次冗余拷贝 [10] - GPUDirect P2P技术允许GPU之间通过PCIe或NVLink直接进行数据拷贝,无需经过系统内存缓存中间数据,使执行相同任务时的数据拷贝动作减少一半 [11][12] - 尽管P2P技术有优化,但多个GPU通过PCIe总线与CPU相连的方式,在AI对HPC要求提升的背景下,PCIe通信带宽逐渐成为瓶颈 [13] - PCIe带宽随版本提升而增加,例如PCIe 3.0 x16带宽为15.75 GB/s,PCIe 4.0 x16带宽为31.51 GB/s,PCIe 5.0 x16带宽为63.02 GB/s [13][14] 高带宽互连技术NVLink与NVSwitch - NVLink是一种高速高带宽互连技术,用于GPU之间或GPU与其他设备间的直接通信,例如NVIDIA A100 GPU通过NVLink互联可达到600GB/s的双向带宽,远高于传统PCIe总线 [14][15] - 不同世代NVLink带宽持续提升,第三代每GPU带宽为850GB/s,第四代为900GB/s,第五代达到1,800GB/s [16] - NVLink解决了单节点小规模计算设备间的高效通信,但当GPU数量超过NVLink最大连接数时,拓扑结构面临挑战 [17][18] - NVSwitch是专为多GPU系统设计的高速互联芯片,它作为节点交换架构,支持单节点中多个GPU的全互联,例如支持16个GPU全互联,并支持多对GPU同时通信 [19][20] - NVSwitch提供高带宽,每条NVLink带宽可达300 GB/s(双向),远高于PCIe 4.0 x16的32GB/s带宽,并且支持全互联拓扑,避免通信瓶颈,具有良好的可扩展性 [20] - NVSwitch版本带宽不断提升,NVLink 3 Switch总聚合带宽为4.8TB/s,NVLink 4 Switch为7.2TB/s,NVLink 5 Switch为1PB/s [21] GPU之间的跨机通信 - 经典的跨机通信不支持RDMA时,需借助系统内存进行数据传输,过程包含5个步骤,涉及数据在GPU显存、主机固定内存和网卡缓冲区之间的多次拷贝,效率较低 [22][23][24] - GPUDirect RDMA技术优化了跨机通信,它将上述5个步骤简化至一步完成,支持外围PCIe设备直接访问GPU显存,减少了通过系统内存的中间数据拷贝,并减轻了CPU负载 [24][25] - GPUDirect RDMA可通过InfiniBand、RoCE或iWARP等协议实现 [25] 技术总结与应用结合 - GPUDirect Storage实现了存储设备与GPU显存的直接访问,提升数据加载效率 GPUDirect P2P实现了GPU间互联互通 NVLink改善了PCIe带宽瓶颈 NVSwitch解决了多GPU设备拓扑扩展问题 GPUDirect RDMA解决了多节点GPU间通信问题 [27] - 在实际系统中,GPUDirect P2P与RDMA可结合使用以最大化性能:在单节点内通过NVLink与GPUDirect P2P实现GPU间高速通信,在跨节点间通过InfiniBand与GPUDirect RDMA实现低延迟数据传输 [27][28] - GPUDirect P2P是单节点多GPU通信的基石,依赖高速直连硬件优化本地协作 GPUDirect RDMA是跨节点GPU通信的核心,依赖RDMA网络实现远程数据直达 两者共同支撑了从单机到超大规模集群的GPU高效协同,是AI训练和HPC等领域的关键技术 [28]
算力芯片看点系列:如何理解Scale-up网络与高速SerDes芯片?
东吴证券· 2025-08-21 17:35
行业投资评级 - 电子行业评级为增持(维持)[1] 核心观点 - AI芯片Scale-up互连技术中英伟达NVLink性能领先 支持576个GPU实现1.8TB/s通信速度 远超基于PCIe5.0协议的128GB/s方案[6][12] - 英伟达通过NVLink-C2C技术实现GPU与CPU直接互联 GB200采用72对200G SerDes实现14.4Tb/s带宽[6][31] - 下一代Rubin架构将NVLink带宽提升至3.6TB/s Rubin Ultra支持1TB HBM4E存储和13TB/s带宽[37][41] - 国产替代需关注高速SerDes技术 国内厂商最高达112G速率 海外厂商已实现224G SerDes[45][46] 技术架构分析 - NVLink采用三层协议结构:物理层依赖SerDes技术 数据链路层保障传输可靠性 事务层处理流量控制[14] - NVSwitch 4总交换容量28.8Tb/s 支持72个NVLink5.0端口 每个端口速率400G[15][18] - GB200 NVL72服务器包含72颗B200 GPU和36颗Grace CPU 每颗B200提供7.2Tbps NVLink链路[34] 厂商与生态格局 - 英伟达在Scale-up领域保持技术领先 UALink联盟初代V1.0标准于2025Q1发布 较NVLink1.0(2016年应用)存在代际差距[6][12] - 海外SerDes主导厂商包括Cadence、Alphawave(第三方IP授权)及博通、Marvell(自研)均已实现224G能力[46] - 国内SerDes主要厂商包括芯动科技、晟联科、集益威、芯耀辉等 最高速率达112G[46] 投资建议 - 重点推荐盛科通信(总市值472.44亿元)和海光信息(总市值3603.89亿元) 关注万通发展、澜起科技等[6]
博通用一颗芯片,单挑英伟达InfiniBand 和 NVSwitch
半导体行业观察· 2025-07-18 08:57
InfiniBand技术发展与应用 - InfiniBand最初作为跨设备主流结构失败后,在超级计算机领域找到定位,成为高性能、低延迟互连技术,主要得益于远程直接内存访问(RDMA)技术[3] - Nvidia五年前以69亿美元收购Mellanox Technologies,部分原因是预见到InfiniBand在连接GPU服务器节点以协作训练AI模型中的关键作用[3] - InfiniBand在传统高性能计算(HPC)市场份额有限,但大型语言模型和生成式AI的兴起将其推向后端网络新高度[4] Nvidia的GPU互连技术 - Nvidia开发NVLink端口和NVSwitch交换机,使多个GPU内存集群化,在DGX-2系统中实现16个V100 GPU共享HBM内存,呈现为单一2 petaflops FP16性能设备[4] - NVLink技术扩展到GB200 NVL72等机架级系统,为AI服务器节点构建提供显著优势[4] 博通挑战InfiniBand的以太网方案 - 博通开发Tomahawk Ultra以太网交换机ASIC,目标取代InfiniBand在HPC和AI集群的应用,同时兼具内存结构功能[5] - Tomahawk Ultra实现250纳秒端口到端口延迟,770亿PPS吞吐量,51.2 Tb/秒总带宽,性能接近InfiniBand[12] - 采用优化以太网报头技术,将标准46字节报头压缩至10字节,提升传输效率[15] 技术性能对比 - InfiniBand历史延迟数据:从2001年300纳秒(SDR)降至2015年86纳秒(EDR),但近年因信号处理开销增加,NDR/XDR延迟回升至240纳秒[10][11] - InfiniBand交换机吞吐量演进:从2015年70亿PPS(7.2 Tb/秒)提升至2021年66.5亿PPS(25.6 Tb/秒)[12] - 博通Tomahawk Ultra在相同小数据包条件下,PPS是Tomahawk 6的两倍,延迟仅为后者1/3[12] 关键技术突破 - 引入链路层重传(LLR)和基于信用的流量控制(CBFC)技术,使以太网表现更接近无损传输,避免传统拥塞处理导致的性能下降[16][18][20] - 实现网络内集体操作功能,这是取代InfiniBand的关键特性,类似Nvidia的SHARP功能[13][23] 市场影响与竞争格局 - 博通Tomahawk Ultra不仅针对InfiniBand,还挑战Nvidia的NVSwitch和新兴UALink标准,可能成为GPU互连替代方案[26] - AMD计划在"Helios"系统中通过以太网隧道传输UALink协议,显示行业对以太网方案的认可[29] - Tomahawk Ultra样品已推出,预计2026年上半年上市,支持铜缆/光纤多种连接方式[29]
英伟达是靠钱堆出来了
半导体行业观察· 2025-03-31 09:43
公司领导与研发战略 - Nvidia首席执行官黄仁勋带领公司取得辉煌成就,与IBM、甲骨文、苹果等科技巨头的创始人相提并论 [1] - 首席科学家Bill Dally负责管理Nvidia研究部门,关注公司内部技术发展并推动创新 [2] - Nvidia研发支出占收入比例长期保持在20%-25%,与Meta Platforms相当,高于谷歌、微软等科技公司 [7][11] 技术发展与市场优势 - Nvidia通过CUDA平台积累了900多个库、框架和模型,支撑全球加速HPC和AI应用 [9] - GPU设计持续演进,成为HPC、分析和AI工作负载的主力并行计算引擎 [4][5] - Nvidia在稀缺HBM内存采购上具有优势,使其在AI训练和推理市场占据主导地位 [9][10] 研发投入与成果 - 过去12个月Nvidia研发支出达129.1亿美元,同比增长48.9% [12] - Nvidia Research分为供给方和需求方研究,涵盖从电路设计到应用领域的广泛技术 [14][16] - 重要技术转移包括NVLink/NVSwitch、cuDNN、光线追踪等,推动产品创新 [17][18] 未来发展方向 - Nvidia已预测第三波AI浪潮(物理AI),并正在为第四波浪潮做准备 [7] - 新成立的量子计算研究小组评估技术现状,寻找未来机遇 [16] - 公司通过收购(如Mellanox)和自主研发相结合的方式保持技术领先 [28] 财务与市场表现 - Nvidia过去12个月销售额达1305亿美元,是AMD的5.1倍 [11] - 数据中心业务从2015财年Q1的5700万美元起步,现已成公司核心增长引擎 [6] - GenAI热潮推动公司收入和利润激增,研发支出占比降至10%左右 [12]
PCIE,博通的新芯片路线图
半导体行业观察· 2025-02-28 11:08
PCI-Express技术发展 - PCI-Express带宽每三年升级一次,目前行业正等待PCI-Express 6.0端口在服务器和交换机上的应用[1] - PCI-Express 6.0采用PAM-4编码,相比NRZ编码将数据速率提高一倍,但误码率高出三个数量级,需引入前向纠错(FEC)机制[3] - PCI-SIG组织采用流控制单元(FLIT)和循环冗余校验(CRC)的混合方案,使大数据包延迟减少50%[3] 博通公司战略布局 - 博通通过收购PLX Technologies进入PCI-Express交换机市场,2014年收购价3.09亿美元[1] - 博通推出"Atlas"系列PCI-Express交换机和"Vantage"重定时器产品线,最新发布Atlas 3交换机和Vantage 5重定时器[4][6] - 博通Atlas 3交换机提供144个通道(72个端口),号称比其他PCI-Express 6.0交换机多2.25倍通道数[7] AI服务器需求驱动 - AI服务器成为推动PCI-Express 6.0发展的主要动力,典型8 GPU服务器需配置4个PCI-Express交换机[7] - AI服务器中加速器采用点对点通信模式,PCI-Express交换机需承担遥测和诊断功能[8] - 博通推出PCI-Express 6.0互操作开发平台,整合ASIC、分析仪和闪存接口,支持生态系统开发[8] 与NVLink技术对比 - Nvidia NVSwitch 4 ASIC提供57.6 Tb/s总带宽,单个NVLink 5端口带宽达1.8 TB/s[10] - PCI-Express 6.0 x16通道聚合提供256 GB/s带宽,若实现x64端口聚合可达1 TB/s带宽[11] - 行业期待开发类似NVLink的PCI-Express端口聚合技术,可能命名为PCI-Link 1.0[11]