NVSwitch - 财报，业绩电话会，研报，新闻

NVSwitch

搜索文档

Switch芯片研究框架（一）：GPU-GPU互连，从Scale-Up到Scale-Out的格局如何？

东吴证券· 2025-09-30 14:03

报告行业投资评级 - 行业投资评级为“增持”，且为“维持” [1] 报告核心观点 - 报告核心观点聚焦于AI算力基础设施中的Switch芯片，特别是GPU互连技术从Scale-Up到Scale-Out的格局演变 [1] - 国际厂商如NVIDIA、博通、Marvell等在技术和市场份额上领先，但国内厂商在国产替代路径上已实现多点突破，呈现百花齐放态势 [6] - 投资建议重点推荐在国产替代生态中卡位优势显著的公司 [6] Switch芯片厂商格局 - NVIDIA凭借其私有协议NVSwitch占据主要市场份额，NVSwitch是业界带宽最高、部署最成熟的私有方案，经历了六代演进 [6][11] - 博通在云端数据中心交换机市场市占率达九成，推出基于以太网络的SUE开放架构，其Tomahawk Ultra芯片带宽为51.2 Tbps，Tomahawk 6芯片带宽达102.4 Tbps [6][13][16] - Astera Labs是唯一同时掌握交换芯片、延长线、软件管理平台的厂家，其Scorpio X系列已通过NVIDIA Blackwell平台验证，并布局PCIe/UALink双模 [6][20] - Marvell提供51.2Tbps的Teralynx 10交换芯片，延迟低至500纳秒，运行功耗低至1W/100G端口 [6][31][33] - 博通产品线覆盖全面，拥有高端的Tomahawk、中端的Trident和低端的Jericho三大系列，其中Tomahawk 5支持51.2Tbps容量，较早期产品实现80倍带宽提升并降低90%以上能耗 [26][30] 国产替代路径：独立交换芯片厂商 - 盛科通信是国内以太网交换芯片市场的领先企业，产品覆盖100Gbps-25.6Tbps交换容量及100M到800G端口速率，其12.8T/25.6T高端芯片已进入客户推广阶段 [6][35] - 盛科通信营业收入从2019年的1.92亿元增长至2024年的10.82亿元，以太网交换芯片业务占比不断提升 [37] - 数渡科技在PCIe 5.0交换芯片领域率先进入客户导入和小批量阶段，预计2025年底有望实现国产替代突破 [6][39][41] - 澜起科技以Retimer为切入点，正构建完整的PCIe/CXL互联产品族，其PCIe 6.x/CXL 3.x Retimer已送样，技术指标达国际先进水平 [6][42] 国产替代路径：大厂自研交换芯片 - 海光信息已开放其CPU互联总线协议（HSL），布局CPU、GPU、Switch互联，初步形成算力基础设施全覆盖 [6][43] - 华为发布单芯片51.2T数据中心盒式液冷交换机，并开放“灵衢”互联协议2.0技术规范，其超节点产品支持8192卡及15488卡规模 [6][45][49] - 中兴通讯已形成自研交换/NP芯片全栈布局，其第五代自研交换芯片支持GPU间通信带宽达400GB/s至1.6TB/s [6][50] - 新华三自主研发智擎系列可编程NP芯片，智擎660芯片接口吞吐能力达1.2Tbps，集成度超过180亿晶体管 [6][51]

半导体行业观察· 2025-09-29 09:37

文章核心观点 - 文章系统阐述了人工智能和高性能计算系统中，CPU与GPU之间以及GPU与GPU之间的数据通信技术演进，重点分析了传统通信方式的瓶颈以及NVIDIA推出的GPUDirect系列技术、NVLink和NVSwitch等优化方案如何通过减少数据拷贝次数、提供高带宽直连来显著提升数据传输效率 [3][6][7][11][12][14][15][19][20][24][25][27][28] GPU与存储系统的通信 - 传统数据加载流程需经过系统内存中转，涉及两次数据拷贝：第一次从NVMe SSD通过DMA技术经PCIe总线拷贝到系统内存，第二次通过CUDA的cudaMemcpy函数经PCIe总线将数据从系统内存拷贝到GPU显存 [6] - 传统方式存在冗余的数据拷贝过程，导致效率瓶颈 [6] - GPUDirect Storage技术优化了此流程，它提供了存储设备与GPU显存的直接通路，允许网卡或存储系统的DMA引擎直接向GPU显存读写数据，减少了CPU和系统内存的瓶颈，显著提升了数据密集型应用的性能 [6][7] GPU之间的数据流动 - 传统GPU间通信需通过系统内存中的共享固定内存中转，数据从GPU0显存经PCIe拷贝到系统内存，再经PCIe拷贝到GPU1显存，过程存在多次冗余拷贝 [10] - GPUDirect P2P技术允许GPU之间通过PCIe或NVLink直接进行数据拷贝，无需经过系统内存缓存中间数据，使执行相同任务时的数据拷贝动作减少一半 [11][12] - 尽管P2P技术有优化，但多个GPU通过PCIe总线与CPU相连的方式，在AI对HPC要求提升的背景下，PCIe通信带宽逐渐成为瓶颈 [13] - PCIe带宽随版本提升而增加，例如PCIe 3.0 x16带宽为15.75 GB/s，PCIe 4.0 x16带宽为31.51 GB/s，PCIe 5.0 x16带宽为63.02 GB/s [13][14] 高带宽互连技术NVLink与NVSwitch - NVLink是一种高速高带宽互连技术，用于GPU之间或GPU与其他设备间的直接通信，例如NVIDIA A100 GPU通过NVLink互联可达到600GB/s的双向带宽，远高于传统PCIe总线 [14][15] - 不同世代NVLink带宽持续提升，第三代每GPU带宽为850GB/s，第四代为900GB/s，第五代达到1,800GB/s [16] - NVLink解决了单节点小规模计算设备间的高效通信，但当GPU数量超过NVLink最大连接数时，拓扑结构面临挑战 [17][18] - NVSwitch是专为多GPU系统设计的高速互联芯片，它作为节点交换架构，支持单节点中多个GPU的全互联，例如支持16个GPU全互联，并支持多对GPU同时通信 [19][20] - NVSwitch提供高带宽，每条NVLink带宽可达300 GB/s（双向），远高于PCIe 4.0 x16的32GB/s带宽，并且支持全互联拓扑，避免通信瓶颈，具有良好的可扩展性 [20] - NVSwitch版本带宽不断提升，NVLink 3 Switch总聚合带宽为4.8TB/s，NVLink 4 Switch为7.2TB/s，NVLink 5 Switch为1PB/s [21] GPU之间的跨机通信 - 经典的跨机通信不支持RDMA时，需借助系统内存进行数据传输，过程包含5个步骤，涉及数据在GPU显存、主机固定内存和网卡缓冲区之间的多次拷贝，效率较低 [22][23][24] - GPUDirect RDMA技术优化了跨机通信，它将上述5个步骤简化至一步完成，支持外围PCIe设备直接访问GPU显存，减少了通过系统内存的中间数据拷贝，并减轻了CPU负载 [24][25] - GPUDirect RDMA可通过InfiniBand、RoCE或iWARP等协议实现 [25] 技术总结与应用结合 - GPUDirect Storage实现了存储设备与GPU显存的直接访问，提升数据加载效率 GPUDirect P2P实现了GPU间互联互通 NVLink改善了PCIe带宽瓶颈 NVSwitch解决了多GPU设备拓扑扩展问题 GPUDirect RDMA解决了多节点GPU间通信问题 [27] - 在实际系统中，GPUDirect P2P与RDMA可结合使用以最大化性能：在单节点内通过NVLink与GPUDirect P2P实现GPU间高速通信，在跨节点间通过InfiniBand与GPUDirect RDMA实现低延迟数据传输 [27][28] - GPUDirect P2P是单节点多GPU通信的基石，依赖高速直连硬件优化本地协作 GPUDirect RDMA是跨节点GPU通信的核心，依赖RDMA网络实现远程数据直达两者共同支撑了从单机到超大规模集群的GPU高效协同，是AI训练和HPC等领域的关键技术 [28]

High Performance Computing

Artificial Intelligence

High Performance Computing

Artificial Intelligence

算力芯片看点系列：如何理解Scale-up网络与高速SerDes芯片？

东吴证券· 2025-08-21 17:35

行业投资评级 - 电子行业评级为增持（维持）[1] 核心观点 - AI芯片Scale-up互连技术中英伟达NVLink性能领先支持576个GPU实现1.8TB/s通信速度远超基于PCIe5.0协议的128GB/s方案[6][12] - 英伟达通过NVLink-C2C技术实现GPU与CPU直接互联 GB200采用72对200G SerDes实现14.4Tb/s带宽[6][31] - 下一代Rubin架构将NVLink带宽提升至3.6TB/s Rubin Ultra支持1TB HBM4E存储和13TB/s带宽[37][41] - 国产替代需关注高速SerDes技术国内厂商最高达112G速率海外厂商已实现224G SerDes[45][46] 技术架构分析 - NVLink采用三层协议结构：物理层依赖SerDes技术数据链路层保障传输可靠性事务层处理流量控制[14] - NVSwitch 4总交换容量28.8Tb/s 支持72个NVLink5.0端口每个端口速率400G[15][18] - GB200 NVL72服务器包含72颗B200 GPU和36颗Grace CPU 每颗B200提供7.2Tbps NVLink链路[34] 厂商与生态格局 - 英伟达在Scale-up领域保持技术领先 UALink联盟初代V1.0标准于2025Q1发布较NVLink1.0（2016年应用）存在代际差距[6][12] - 海外SerDes主导厂商包括Cadence、Alphawave（第三方IP授权）及博通、Marvell（自研）均已实现224G能力[46] - 国内SerDes主要厂商包括芯动科技、晟联科、集益威、芯耀辉等最高速率达112G[46] 投资建议 - 重点推荐盛科通信（总市值472.44亿元）和海光信息（总市值3603.89亿元）关注万通发展、澜起科技等[6]

博通用一颗芯片，单挑英伟达InfiniBand 和 NVSwitch

半导体行业观察· 2025-07-18 08:57

InfiniBand技术发展与应用 - InfiniBand最初作为跨设备主流结构失败后，在超级计算机领域找到定位，成为高性能、低延迟互连技术，主要得益于远程直接内存访问(RDMA)技术[3] - Nvidia五年前以69亿美元收购Mellanox Technologies，部分原因是预见到InfiniBand在连接GPU服务器节点以协作训练AI模型中的关键作用[3] - InfiniBand在传统高性能计算(HPC)市场份额有限，但大型语言模型和生成式AI的兴起将其推向后端网络新高度[4] Nvidia的GPU互连技术 - Nvidia开发NVLink端口和NVSwitch交换机，使多个GPU内存集群化，在DGX-2系统中实现16个V100 GPU共享HBM内存，呈现为单一2 petaflops FP16性能设备[4] - NVLink技术扩展到GB200 NVL72等机架级系统，为AI服务器节点构建提供显著优势[4] 博通挑战InfiniBand的以太网方案 - 博通开发Tomahawk Ultra以太网交换机ASIC，目标取代InfiniBand在HPC和AI集群的应用，同时兼具内存结构功能[5] - Tomahawk Ultra实现250纳秒端口到端口延迟，770亿PPS吞吐量，51.2 Tb/秒总带宽，性能接近InfiniBand[12] - 采用优化以太网报头技术，将标准46字节报头压缩至10字节，提升传输效率[15] 技术性能对比 - InfiniBand历史延迟数据：从2001年300纳秒(SDR)降至2015年86纳秒(EDR)，但近年因信号处理开销增加，NDR/XDR延迟回升至240纳秒[10][11] - InfiniBand交换机吞吐量演进：从2015年70亿PPS(7.2 Tb/秒)提升至2021年66.5亿PPS(25.6 Tb/秒)[12] - 博通Tomahawk Ultra在相同小数据包条件下，PPS是Tomahawk 6的两倍，延迟仅为后者1/3[12] 关键技术突破 - 引入链路层重传(LLR)和基于信用的流量控制(CBFC)技术，使以太网表现更接近无损传输，避免传统拥塞处理导致的性能下降[16][18][20] - 实现网络内集体操作功能，这是取代InfiniBand的关键特性，类似Nvidia的SHARP功能[13][23] 市场影响与竞争格局 - 博通Tomahawk Ultra不仅针对InfiniBand，还挑战Nvidia的NVSwitch和新兴UALink标准，可能成为GPU互连替代方案[26] - AMD计划在"Helios"系统中通过以太网隧道传输UALink协议，显示行业对以太网方案的认可[29] - Tomahawk Ultra样品已推出，预计2026年上半年上市，支持铜缆/光纤多种连接方式[29]

生成式人工智能（GenAI）

高性能计算（HPC）

半导体

Tomahawk Ultra交换机ASIC

Tomahawk Ultra交换机ASIC

InfiniBand

NVSwitch

英伟达是靠钱堆出来了

半导体行业观察· 2025-03-31 09:43

公司领导与研发战略 - Nvidia首席执行官黄仁勋带领公司取得辉煌成就，与IBM、甲骨文、苹果等科技巨头的创始人相提并论 [1] - 首席科学家Bill Dally负责管理Nvidia研究部门，关注公司内部技术发展并推动创新 [2] - Nvidia研发支出占收入比例长期保持在20%-25%，与Meta Platforms相当，高于谷歌、微软等科技公司 [7][11] 技术发展与市场优势 - Nvidia通过CUDA平台积累了900多个库、框架和模型，支撑全球加速HPC和AI应用 [9] - GPU设计持续演进，成为HPC、分析和AI工作负载的主力并行计算引擎 [4][5] - Nvidia在稀缺HBM内存采购上具有优势，使其在AI训练和推理市场占据主导地位 [9][10] 研发投入与成果 - 过去12个月Nvidia研发支出达129.1亿美元，同比增长48.9% [12] - Nvidia Research分为供给方和需求方研究，涵盖从电路设计到应用领域的广泛技术 [14][16] - 重要技术转移包括NVLink/NVSwitch、cuDNN、光线追踪等，推动产品创新 [17][18] 未来发展方向 - Nvidia已预测第三波AI浪潮（物理AI），并正在为第四波浪潮做准备 [7] - 新成立的量子计算研究小组评估技术现状，寻找未来机遇 [16] - 公司通过收购（如Mellanox）和自主研发相结合的方式保持技术领先 [28] 财务与市场表现 - Nvidia过去12个月销售额达1305亿美元，是AMD的5.1倍 [11] - 数据中心业务从2015财年Q1的5700万美元起步，现已成公司核心增长引擎 [6] - GenAI热潮推动公司收入和利润激增，研发支出占比降至10%左右 [12]

英伟达(US:NVDA)

Artificial Intelligence

Artificial Intelligence

半导体行业观察· 2025-02-28 11:08

PCI-Express技术发展 - PCI-Express带宽每三年升级一次，目前行业正等待PCI-Express 6.0端口在服务器和交换机上的应用[1] - PCI-Express 6.0采用PAM-4编码，相比NRZ编码将数据速率提高一倍，但误码率高出三个数量级，需引入前向纠错(FEC)机制[3] - PCI-SIG组织采用流控制单元(FLIT)和循环冗余校验(CRC)的混合方案，使大数据包延迟减少50%[3] 博通公司战略布局 - 博通通过收购PLX Technologies进入PCI-Express交换机市场，2014年收购价3.09亿美元[1] - 博通推出"Atlas"系列PCI-Express交换机和"Vantage"重定时器产品线，最新发布Atlas 3交换机和Vantage 5重定时器[4][6] - 博通Atlas 3交换机提供144个通道(72个端口)，号称比其他PCI-Express 6.0交换机多2.25倍通道数[7] AI服务器需求驱动 - AI服务器成为推动PCI-Express 6.0发展的主要动力，典型8 GPU服务器需配置4个PCI-Express交换机[7] - AI服务器中加速器采用点对点通信模式，PCI-Express交换机需承担遥测和诊断功能[8] - 博通推出PCI-Express 6.0互操作开发平台，整合ASIC、分析仪和闪存接口，支持生态系统开发[8] 与NVLink技术对比 - Nvidia NVSwitch 4 ASIC提供57.6 Tb/s总带宽，单个NVLink 5端口带宽达1.8 TB/s[10] - PCI-Express 6.0 x16通道聚合提供256 GB/s带宽，若实现x64端口聚合可达1 TB/s带宽[11] - 行业期待开发类似NVLink的PCI-Express端口聚合技术，可能命名为PCI-Link 1.0[11]