NVSwitch
搜索文档
芯片初创公司,单挑英伟达和博通
半导体行业观察· 2026-01-22 12:05
公司概况与融资 - 芯片初创公司Upscale AI宣布完成2亿美元A轮融资,旨在挑战英伟达在机架级AI系统交换机领域的地位,并与思科、博通和AMD等公司竞争 [1] - 本轮融资由Tiger Global、Premji Invest和Xora Innovation领投,多家知名风投及企业投资机构参投,使公司总融资额超过3亿美元 [1] - 投资者的迅速涌入反映了行业共识:网络是人工智能扩展的关键瓶颈,传统网络架构不适用于AI时代 [1] 市场定位与战略 - 公司专注于开拓预计到本十年末将达到1000亿美元的人工智能互连市场 [6] - 公司策略是将GPU、AI加速器、内存、存储和网络整合到一个单一的同步AI引擎中 [6] - 公司致力于普及AI计算的网络,坚信异构计算和异构网络是未来的发展方向,旨在为客户提供除英伟达NVSwitch之外的更多选择 [9][10] - 公司平台基于开放标准和开源技术构建,并积极参与相关联盟与基金会,如Ultra Accelerator Link联盟、Ultra Ethernet联盟等 [7] 核心产品与技术 - 公司核心产品是名为SkyHammer的解决方案,这是一款专为纵向扩展网络(连接机架内部硬件组件)而优化的芯片,能提供确定性延迟 [6][9] - SkyHammer通过缩短加速器、内存和存储之间的距离,实现统一机架,并将整个堆栈转换为一个统一的同步系统 [6] - 该芯片采用从头开始构建的内存结构ASIC,专门为AI工作负载设计,支持内存语义协议,并生成实时遥测数据以优化性能 [13] - SkyHammer兼容多种开源网络技术,包括UALink、ESUN和UEC,其中UEC可为多达100万个芯片的AI集群提供支持 [13][14] - 该平台将同时支持UALink和与其竞争的ESUN协议,并将扩展对开源网络操作系统SONiC的支持 [17] 行业背景与挑战 - 英伟达的网络业务(如NVLink)是其重要护城河,其2026财年第三季度网络业务收入同比增长162%,达到81.9亿美元 [3] - 传统数据中心网络解决方案是为AI出现之前的世界设计的,不适合机架级规模所需的大规模、高度同步的扩展 [2] - 随着单芯片性能扩展乏力,Scale Up和Scale Out的连接需求将成为主流,市场需要高基数、高总带宽的交换机 [3] - 目前能够与英伟达NVSwitch竞争的专用UALink交换机尚未问世,AMD的首批基于UALink的机架式系统将通过以太网隧道传输该协议 [16] 创始团队与背景 - 公司创始人Rajiv Khemani是连续芯片创业专家,曾担任Cavium Networks首席运营官,该公司后被Marvell以60亿美元收购 [3][4] - Khemani也是Innovium的联合创始人兼首席执行官,该公司于2021年被Marvell以11亿美元收购 [4] - 2022年,Khemani联合创立了Auradine,致力于研发AI和区块链计算及网络芯片,该公司在2025年4月前共筹集了超过3亿美元 [5] - 2024年5月,Khemani和联合创始人Barun Kar将Auradine的部分网络业务剥离,成立了Upscale AI [6] - 联合创始人Barun Kar曾任Palo Alto Networks工程高级副总裁,并在Juniper Networks管理以太网路由器和交换机产品 [6] 发展计划与目标 - 凭借新增的2亿美元融资,公司将推出首个涵盖芯片、系统和软件的全栈式交钥匙平台,旨在连接未来通用人工智能的异构系统 [7] - 公司已与超大规模数据中心运营商和GPU供应商建立合作关系,并完成了架构验证,当前资金重点是将创新转化为实际部署 [18] - 公司目前主要专注于纵向扩展网络产品,但长期计划将产品线扩展到更传统的横向扩展交换机 [18]
国海证券:总线互联促进AI模型与应用产业发展 维持计算机行业“推荐”评级
智通财经网· 2025-12-25 13:56
文章核心观点 - 在大模型时代,Scale-Up(纵向扩展)对高速互联协议产生了新需求,总线互联在超节点中扮演关键角色,国内外正积极发布新架构以促进AI产业发展,并形成从模型到算力的正向循环 [1] 高速互联协议的作用与需求 - 计算机总线用于连接系统与组件,具有数据传输、寻址和控制功能,服务器常见协议包括PCIe、Ethernet等,Switch设备负责Scale-Up中的主机通信与带宽扩展 [1] - 大模型时代的Scale-Up对高速互联协议产生新需求,主流协议包括NVLink、UALink、SUE、CXL、HSL、UB等 [1] 主要高速互联协议技术现状 - PCIe是传统扩展总线标准,但设备间通信速度存在瓶颈,因此CXL协议应运而生,众多厂商使用各自互联协议,其中NVLink处于领先地位 [2] - NVLink实现GPU间高速互联,NVSwitch提供多GPU互联硬件支持,具有延迟低、通道数多、带宽高、功耗大的特点,第五代NVLink单通道带宽为200Gbps,远超PCIe Gen5的32Gbps [2] - NVLink C2C实现CPU与CPU、CPU与GPU间的高速互联 [2] - 华为灵衢(UB)提供百纳秒级同步内存访问时延和2-5微秒异步内存访问时延,提供TB/s级带宽,其UB Processing Unit内嵌UB Switch支持多级扩展组网,并可通过UBoE与以太网融合组网 [2] - UALink利用以太网基础设施实现Scale-Up,UALink 1.0规范支持每通道最高200GT/s速率,每四条物理通道组合在TX和RX方向各提供最大800Gbps带宽 [3] - 博通SUE借助以太网实现网络总线化,以低延迟、高带宽方式实现高效部署,支持以高效面积和功耗实现多实例化 [3] - 海光信息发布海光系统互联总线协议(HSL) 1.0规范并公布未来三年开放路线图,旨在打破技术壁垒,促进国产计算产业生态协同创新 [3] 技术发展趋势与产业合作 - NVLink走向部分开源合作,首批合作厂商包括MediaTek、Marvell、Alchip Technologies、Astera Labs、Synopsys和Cadence,支持定制化芯片Scale-Up以满足模型训练和推理需求 [4] - 云服务商可以使用自定义ASIC、NVIDIA机架级系统和NVIDIA端到端网络平台 [4] - 算力需求演进对互联技术提出更高要求,需要实现高带宽和低时延,随着模型规模、数据集规模及训练计算量增加,语言建模性能平滑提升,三者需同步提升以获得最优性能 [4] - 当前大型语言模型存在显著训练不足的问题,这是近期在保持训练数据量不变的情况下过度追求模型规模扩张的结果 [4]
Switch芯片研究框架(一):GPU-GPU互连,从Scale-Up到Scale-Out的格局如何?
东吴证券· 2025-09-30 14:03
报告行业投资评级 - 行业投资评级为“增持”,且为“维持” [1] 报告核心观点 - 报告核心观点聚焦于AI算力基础设施中的Switch芯片,特别是GPU互连技术从Scale-Up到Scale-Out的格局演变 [1] - 国际厂商如NVIDIA、博通、Marvell等在技术和市场份额上领先,但国内厂商在国产替代路径上已实现多点突破,呈现百花齐放态势 [6] - 投资建议重点推荐在国产替代生态中卡位优势显著的公司 [6] Switch芯片厂商格局 - NVIDIA凭借其私有协议NVSwitch占据主要市场份额,NVSwitch是业界带宽最高、部署最成熟的私有方案,经历了六代演进 [6][11] - 博通在云端数据中心交换机市场市占率达九成,推出基于以太网络的SUE开放架构,其Tomahawk Ultra芯片带宽为51.2 Tbps,Tomahawk 6芯片带宽达102.4 Tbps [6][13][16] - Astera Labs是唯一同时掌握交换芯片、延长线、软件管理平台的厂家,其Scorpio X系列已通过NVIDIA Blackwell平台验证,并布局PCIe/UALink双模 [6][20] - Marvell提供51.2Tbps的Teralynx 10交换芯片,延迟低至500纳秒,运行功耗低至1W/100G端口 [6][31][33] - 博通产品线覆盖全面,拥有高端的Tomahawk、中端的Trident和低端的Jericho三大系列,其中Tomahawk 5支持51.2Tbps容量,较早期产品实现80倍带宽提升并降低90%以上能耗 [26][30] 国产替代路径:独立交换芯片厂商 - 盛科通信是国内以太网交换芯片市场的领先企业,产品覆盖100Gbps-25.6Tbps交换容量及100M到800G端口速率,其12.8T/25.6T高端芯片已进入客户推广阶段 [6][35] - 盛科通信营业收入从2019年的1.92亿元增长至2024年的10.82亿元,以太网交换芯片业务占比不断提升 [37] - 数渡科技在PCIe 5.0交换芯片领域率先进入客户导入和小批量阶段,预计2025年底有望实现国产替代突破 [6][39][41] - 澜起科技以Retimer为切入点,正构建完整的PCIe/CXL互联产品族,其PCIe 6.x/CXL 3.x Retimer已送样,技术指标达国际先进水平 [6][42] 国产替代路径:大厂自研交换芯片 - 海光信息已开放其CPU互联总线协议(HSL),布局CPU、GPU、Switch互联,初步形成算力基础设施全覆盖 [6][43] - 华为发布单芯片51.2T数据中心盒式液冷交换机,并开放“灵衢”互联协议2.0技术规范,其超节点产品支持8192卡及15488卡规模 [6][45][49] - 中兴通讯已形成自研交换/NP芯片全栈布局,其第五代自研交换芯片支持GPU间通信带宽达400GB/s至1.6TB/s [6][50] - 新华三自主研发智擎系列可编程NP芯片,智擎660芯片接口吞吐能力达1.2Tbps,集成度超过180亿晶体管 [6][51]
CPU和CPU,是如何通信的?
半导体行业观察· 2025-09-29 09:37
文章核心观点 - 文章系统阐述了人工智能和高性能计算系统中,CPU与GPU之间以及GPU与GPU之间的数据通信技术演进,重点分析了传统通信方式的瓶颈以及NVIDIA推出的GPUDirect系列技术、NVLink和NVSwitch等优化方案如何通过减少数据拷贝次数、提供高带宽直连来显著提升数据传输效率 [3][6][7][11][12][14][15][19][20][24][25][27][28] GPU与存储系统的通信 - 传统数据加载流程需经过系统内存中转,涉及两次数据拷贝:第一次从NVMe SSD通过DMA技术经PCIe总线拷贝到系统内存,第二次通过CUDA的cudaMemcpy函数经PCIe总线将数据从系统内存拷贝到GPU显存 [6] - 传统方式存在冗余的数据拷贝过程,导致效率瓶颈 [6] - GPUDirect Storage技术优化了此流程,它提供了存储设备与GPU显存的直接通路,允许网卡或存储系统的DMA引擎直接向GPU显存读写数据,减少了CPU和系统内存的瓶颈,显著提升了数据密集型应用的性能 [6][7] GPU之间的数据流动 - 传统GPU间通信需通过系统内存中的共享固定内存中转,数据从GPU0显存经PCIe拷贝到系统内存,再经PCIe拷贝到GPU1显存,过程存在多次冗余拷贝 [10] - GPUDirect P2P技术允许GPU之间通过PCIe或NVLink直接进行数据拷贝,无需经过系统内存缓存中间数据,使执行相同任务时的数据拷贝动作减少一半 [11][12] - 尽管P2P技术有优化,但多个GPU通过PCIe总线与CPU相连的方式,在AI对HPC要求提升的背景下,PCIe通信带宽逐渐成为瓶颈 [13] - PCIe带宽随版本提升而增加,例如PCIe 3.0 x16带宽为15.75 GB/s,PCIe 4.0 x16带宽为31.51 GB/s,PCIe 5.0 x16带宽为63.02 GB/s [13][14] 高带宽互连技术NVLink与NVSwitch - NVLink是一种高速高带宽互连技术,用于GPU之间或GPU与其他设备间的直接通信,例如NVIDIA A100 GPU通过NVLink互联可达到600GB/s的双向带宽,远高于传统PCIe总线 [14][15] - 不同世代NVLink带宽持续提升,第三代每GPU带宽为850GB/s,第四代为900GB/s,第五代达到1,800GB/s [16] - NVLink解决了单节点小规模计算设备间的高效通信,但当GPU数量超过NVLink最大连接数时,拓扑结构面临挑战 [17][18] - NVSwitch是专为多GPU系统设计的高速互联芯片,它作为节点交换架构,支持单节点中多个GPU的全互联,例如支持16个GPU全互联,并支持多对GPU同时通信 [19][20] - NVSwitch提供高带宽,每条NVLink带宽可达300 GB/s(双向),远高于PCIe 4.0 x16的32GB/s带宽,并且支持全互联拓扑,避免通信瓶颈,具有良好的可扩展性 [20] - NVSwitch版本带宽不断提升,NVLink 3 Switch总聚合带宽为4.8TB/s,NVLink 4 Switch为7.2TB/s,NVLink 5 Switch为1PB/s [21] GPU之间的跨机通信 - 经典的跨机通信不支持RDMA时,需借助系统内存进行数据传输,过程包含5个步骤,涉及数据在GPU显存、主机固定内存和网卡缓冲区之间的多次拷贝,效率较低 [22][23][24] - GPUDirect RDMA技术优化了跨机通信,它将上述5个步骤简化至一步完成,支持外围PCIe设备直接访问GPU显存,减少了通过系统内存的中间数据拷贝,并减轻了CPU负载 [24][25] - GPUDirect RDMA可通过InfiniBand、RoCE或iWARP等协议实现 [25] 技术总结与应用结合 - GPUDirect Storage实现了存储设备与GPU显存的直接访问,提升数据加载效率 GPUDirect P2P实现了GPU间互联互通 NVLink改善了PCIe带宽瓶颈 NVSwitch解决了多GPU设备拓扑扩展问题 GPUDirect RDMA解决了多节点GPU间通信问题 [27] - 在实际系统中,GPUDirect P2P与RDMA可结合使用以最大化性能:在单节点内通过NVLink与GPUDirect P2P实现GPU间高速通信,在跨节点间通过InfiniBand与GPUDirect RDMA实现低延迟数据传输 [27][28] - GPUDirect P2P是单节点多GPU通信的基石,依赖高速直连硬件优化本地协作 GPUDirect RDMA是跨节点GPU通信的核心,依赖RDMA网络实现远程数据直达 两者共同支撑了从单机到超大规模集群的GPU高效协同,是AI训练和HPC等领域的关键技术 [28]
算力芯片看点系列:如何理解Scale-up网络与高速SerDes芯片?
东吴证券· 2025-08-21 17:35
行业投资评级 - 电子行业评级为增持(维持)[1] 核心观点 - AI芯片Scale-up互连技术中英伟达NVLink性能领先 支持576个GPU实现1.8TB/s通信速度 远超基于PCIe5.0协议的128GB/s方案[6][12] - 英伟达通过NVLink-C2C技术实现GPU与CPU直接互联 GB200采用72对200G SerDes实现14.4Tb/s带宽[6][31] - 下一代Rubin架构将NVLink带宽提升至3.6TB/s Rubin Ultra支持1TB HBM4E存储和13TB/s带宽[37][41] - 国产替代需关注高速SerDes技术 国内厂商最高达112G速率 海外厂商已实现224G SerDes[45][46] 技术架构分析 - NVLink采用三层协议结构:物理层依赖SerDes技术 数据链路层保障传输可靠性 事务层处理流量控制[14] - NVSwitch 4总交换容量28.8Tb/s 支持72个NVLink5.0端口 每个端口速率400G[15][18] - GB200 NVL72服务器包含72颗B200 GPU和36颗Grace CPU 每颗B200提供7.2Tbps NVLink链路[34] 厂商与生态格局 - 英伟达在Scale-up领域保持技术领先 UALink联盟初代V1.0标准于2025Q1发布 较NVLink1.0(2016年应用)存在代际差距[6][12] - 海外SerDes主导厂商包括Cadence、Alphawave(第三方IP授权)及博通、Marvell(自研)均已实现224G能力[46] - 国内SerDes主要厂商包括芯动科技、晟联科、集益威、芯耀辉等 最高速率达112G[46] 投资建议 - 重点推荐盛科通信(总市值472.44亿元)和海光信息(总市值3603.89亿元) 关注万通发展、澜起科技等[6]
博通用一颗芯片,单挑英伟达InfiniBand 和 NVSwitch
半导体行业观察· 2025-07-18 08:57
InfiniBand技术发展与应用 - InfiniBand最初作为跨设备主流结构失败后,在超级计算机领域找到定位,成为高性能、低延迟互连技术,主要得益于远程直接内存访问(RDMA)技术[3] - Nvidia五年前以69亿美元收购Mellanox Technologies,部分原因是预见到InfiniBand在连接GPU服务器节点以协作训练AI模型中的关键作用[3] - InfiniBand在传统高性能计算(HPC)市场份额有限,但大型语言模型和生成式AI的兴起将其推向后端网络新高度[4] Nvidia的GPU互连技术 - Nvidia开发NVLink端口和NVSwitch交换机,使多个GPU内存集群化,在DGX-2系统中实现16个V100 GPU共享HBM内存,呈现为单一2 petaflops FP16性能设备[4] - NVLink技术扩展到GB200 NVL72等机架级系统,为AI服务器节点构建提供显著优势[4] 博通挑战InfiniBand的以太网方案 - 博通开发Tomahawk Ultra以太网交换机ASIC,目标取代InfiniBand在HPC和AI集群的应用,同时兼具内存结构功能[5] - Tomahawk Ultra实现250纳秒端口到端口延迟,770亿PPS吞吐量,51.2 Tb/秒总带宽,性能接近InfiniBand[12] - 采用优化以太网报头技术,将标准46字节报头压缩至10字节,提升传输效率[15] 技术性能对比 - InfiniBand历史延迟数据:从2001年300纳秒(SDR)降至2015年86纳秒(EDR),但近年因信号处理开销增加,NDR/XDR延迟回升至240纳秒[10][11] - InfiniBand交换机吞吐量演进:从2015年70亿PPS(7.2 Tb/秒)提升至2021年66.5亿PPS(25.6 Tb/秒)[12] - 博通Tomahawk Ultra在相同小数据包条件下,PPS是Tomahawk 6的两倍,延迟仅为后者1/3[12] 关键技术突破 - 引入链路层重传(LLR)和基于信用的流量控制(CBFC)技术,使以太网表现更接近无损传输,避免传统拥塞处理导致的性能下降[16][18][20] - 实现网络内集体操作功能,这是取代InfiniBand的关键特性,类似Nvidia的SHARP功能[13][23] 市场影响与竞争格局 - 博通Tomahawk Ultra不仅针对InfiniBand,还挑战Nvidia的NVSwitch和新兴UALink标准,可能成为GPU互连替代方案[26] - AMD计划在"Helios"系统中通过以太网隧道传输UALink协议,显示行业对以太网方案的认可[29] - Tomahawk Ultra样品已推出,预计2026年上半年上市,支持铜缆/光纤多种连接方式[29]
英伟达是靠钱堆出来了
半导体行业观察· 2025-03-31 09:43
公司领导与研发战略 - Nvidia首席执行官黄仁勋带领公司取得辉煌成就,与IBM、甲骨文、苹果等科技巨头的创始人相提并论 [1] - 首席科学家Bill Dally负责管理Nvidia研究部门,关注公司内部技术发展并推动创新 [2] - Nvidia研发支出占收入比例长期保持在20%-25%,与Meta Platforms相当,高于谷歌、微软等科技公司 [7][11] 技术发展与市场优势 - Nvidia通过CUDA平台积累了900多个库、框架和模型,支撑全球加速HPC和AI应用 [9] - GPU设计持续演进,成为HPC、分析和AI工作负载的主力并行计算引擎 [4][5] - Nvidia在稀缺HBM内存采购上具有优势,使其在AI训练和推理市场占据主导地位 [9][10] 研发投入与成果 - 过去12个月Nvidia研发支出达129.1亿美元,同比增长48.9% [12] - Nvidia Research分为供给方和需求方研究,涵盖从电路设计到应用领域的广泛技术 [14][16] - 重要技术转移包括NVLink/NVSwitch、cuDNN、光线追踪等,推动产品创新 [17][18] 未来发展方向 - Nvidia已预测第三波AI浪潮(物理AI),并正在为第四波浪潮做准备 [7] - 新成立的量子计算研究小组评估技术现状,寻找未来机遇 [16] - 公司通过收购(如Mellanox)和自主研发相结合的方式保持技术领先 [28] 财务与市场表现 - Nvidia过去12个月销售额达1305亿美元,是AMD的5.1倍 [11] - 数据中心业务从2015财年Q1的5700万美元起步,现已成公司核心增长引擎 [6] - GenAI热潮推动公司收入和利润激增,研发支出占比降至10%左右 [12]
PCIE,博通的新芯片路线图
半导体行业观察· 2025-02-28 11:08
PCI-Express技术发展 - PCI-Express带宽每三年升级一次,目前行业正等待PCI-Express 6.0端口在服务器和交换机上的应用[1] - PCI-Express 6.0采用PAM-4编码,相比NRZ编码将数据速率提高一倍,但误码率高出三个数量级,需引入前向纠错(FEC)机制[3] - PCI-SIG组织采用流控制单元(FLIT)和循环冗余校验(CRC)的混合方案,使大数据包延迟减少50%[3] 博通公司战略布局 - 博通通过收购PLX Technologies进入PCI-Express交换机市场,2014年收购价3.09亿美元[1] - 博通推出"Atlas"系列PCI-Express交换机和"Vantage"重定时器产品线,最新发布Atlas 3交换机和Vantage 5重定时器[4][6] - 博通Atlas 3交换机提供144个通道(72个端口),号称比其他PCI-Express 6.0交换机多2.25倍通道数[7] AI服务器需求驱动 - AI服务器成为推动PCI-Express 6.0发展的主要动力,典型8 GPU服务器需配置4个PCI-Express交换机[7] - AI服务器中加速器采用点对点通信模式,PCI-Express交换机需承担遥测和诊断功能[8] - 博通推出PCI-Express 6.0互操作开发平台,整合ASIC、分析仪和闪存接口,支持生态系统开发[8] 与NVLink技术对比 - Nvidia NVSwitch 4 ASIC提供57.6 Tb/s总带宽,单个NVLink 5端口带宽达1.8 TB/s[10] - PCI-Express 6.0 x16通道聚合提供256 GB/s带宽,若实现x64端口聚合可达1 TB/s带宽[11] - 行业期待开发类似NVLink的PCI-Express端口聚合技术,可能命名为PCI-Link 1.0[11]