NeuronLink - 财报，业绩电话会，研报，新闻

NeuronLink

搜索文档

西部证券· 2025-11-14 19:35

行业投资评级 - 通信行业评级为“超配”，前次评级亦为“超配”，本次评级维持不变 [5] 报告核心观点 - 大模型参数提升催生Scale-up网络需求，通过高速互联多张GPU形成统一巨型计算单元以满足大模型训练和推理的算力与内存需求，据Lightcounting，Scale-up交换机市场2025年规模近60亿美元，2025-2030年CAGR预计为26% [1] - Scale-up网络关键在于带宽提升和时延降低，内存访问时延需低于100ns，推动英伟达NVLink、谷歌ICI、亚马逊NeuronLink、华为UB等自研通信方案及光/铜互联、OCS光交换机等技术增量需求 [2] - Scale-up网络需求增长驱动三大受益方向：高端交换芯片与接口芯片需求提升、超节点一体化交付增加通信硬件产业链附加值、光互联与铜互联市场扩大 [3] 基于目录的详细总结一、Scale-up超节点：突破单卡计算瓶颈 - 大模型参数规模提升（如MoE架构）要求更大算力集群，张量并行（TP）与专家并行（EP）等技术带来跨节点通信需求，带宽需数百至数千GB/s且时延极低 [13][17] - 超节点由计算节点、高速互联网络（交换节点与光/铜互联）及辅助保障模块构成，Scale-up网络通过定制协议（如NVLink）提供超1TB/s带宽，支持GPU内存互访（时延<100ns） [18][21][22][25] - 超节点形态从整机柜扩展至分机柜与级联超节点，光连接需求随规模扩大而增长，级联超节点连接距离可达百米级 [26][27] 二、主流超节点系统概况 - 英伟达GB200 NVL72通过NVLink 5.0实现单GPU总带宽1.8TB/s，采用铜缆直连降低时延，整柜交换带宽达130TB/s [21][31][33] - 谷歌第七代TPU Ironwood通过ICI网络支持9216芯片集群，峰值性能4614TFLOPS（TPU v5p的10倍），引入OCS光交换机提升吞吐量30%、降能耗40% [35][36][40][42] - 亚马逊Trainium2服务器通过NeuronLink网络互联64芯片，单向带宽640GB/s，机柜内采用无源铜缆（DAC）连接 [45][48] - 华为CloudMatrix384采用光互联与UB协议，跨16机柜实现300 PFLOPS算力（GB200 NVL72的1.7倍），使用6912个400G LPO光模块 [49][52] 三、Scale-up网络受益方向 - 超节点软硬件深度耦合，硬件厂商通过整机柜交付提升附加值，如中兴通讯具备全栈能力（自研交换芯片、DPU、CPU），锐捷网络推出51.2T CPO交换机并服务头部互联网厂商 [56][57][59] - 以太网等开放协议（如ESUN工作组）渗透Scale-up网络，第三方交换芯片厂商迎增量机遇，盛科通信高端芯片（12.8T/25.6Tbps）达国际先进水平 [61][65][67][71] - 铜互联（AEC/ACC）因低成本、高稳定性需求旺盛，2029年全球高速铜缆市场预计达67亿美元；光互联（AOC/LPO/硅光）快速渗透，CPO市场2030年有望达81亿美元（2024-2030年CAGR 137%），OCS交换机市场2031年预计20亿美元（2025-2031年CAGR 17.1%） [73][77][78][81][82] - 产业链公司如德科立（OCS样品获千万订单）、腾景科技（光器件覆盖OCS/CPO）、瑞可达（铜缆连接器）直接受益 [84][85][89] 四、投资建议 - 超节点一体化交付提升通信硬件附加值，高端交换芯片与接口芯片需求增长，以太网开放协议带来增量机会 [92] - 光互联与铜互联并行发展，CPO、OCS等技术推动光通信渗透率提升，Scale-up网络贡献光模块市场增量 [93]

傅里叶的猫· 2025-08-18 23:04

Scale Up技术概述 - Scale Up通过提升单台服务器的计算密度增强算力，如集成更多高性能GPU、更大内存或更快存储，形成"超级节点"[1] - 特点包括高带宽、低时延，适合AI推理的大显存并行计算及训练中的张量并行(TP)和专家并行(EP)任务[1] - 支持在网计算，如在Switch节点加速All Reduce操作，提升GPU协作效率[1] - 依赖高端硬件导致成本较高，常与Scale Out结合使用以兼顾性能与扩展性[1] 英伟达NVLink方案 - 采用自研NVLink高速互连技术，通过铜缆实现机柜内GPU高带宽低延迟连接[3] - GB200 NVL72架构集成18个计算托盘和9个NVLink Switch托盘，每个计算托盘含4颗B200 GPU(共72颗)[3][8] - 每个NVSwitch5芯片带宽28.8Tb/s，整机柜含18颗NVSwitch5芯片，共72个端口对应72颗GPU[8] - B200 NVLink带宽1.8TB/s，含18个端口，每个端口带宽100GB/s(2x224G PAM4 Serdes)[8] - 未来Rubin架构将升级至NVLink 6.0/7.0，带宽密度提升，延迟降低[5] NVLink Fusion生态开放 - 推出NVLink Fusion技术，向第三方CPU/加速器开放生态，允许通过NVLink C2C或NVLink 5 Chiplet集成[11][12] - 采用"二选一"模式：仅支持半定制CPU或加速器，节点必须包含英伟达芯片[12] - 合作伙伴包括Alchip、AsteraLabs等芯片厂商，富士通/高通研发兼容CPU，Cadence/Synopsys提供IP支持[13] AMD UALink方案 - UALink是由AMD等公司推出的开放互连标准，支持每通道200GT/s，最多连接1024个加速器，延迟<1微秒[16] - MI400采用UALoE方案，通过以太网物理层传输UALink协议，兼容现有以太网生态[17] - Helio UALoE 72架构含18个计算托盘(各4颗MI400 GPU)和6个交换托盘(各2颗Tomahawk6 102.4T交换机)[18] 其他厂商方案 - **AWS NeuronLink**：基于PCIe Gen5协议，Trn2-Ultra64机柜间用AEC、机柜内用DAC互连，Teton PDS Ultra含40个Scorpio X交换机[21][22] - **Meta SUE**：采用博通Tomahawk5/Jericho3交换芯片，Minerva架构含16个MTIA计算托盘和6个交换托盘[24] - **Google ICI**：TPU v4 pod采用3D Torus拓扑(4×4×4)，机柜内DAC连接，机柜间通过OCS光交换组成4096 TPU集群[26] - **华为UB**：Cloud Matrix 384系统含384颗昇腾910C芯片，通过统一总线(UB)光互连，使用6912个400G光模块[28][29] 技术演进趋势 - NVLink带宽从4.0的450GB/s提升至7.0的1800GB/s，NVSwitch聚合带宽从1600GB/s增至14400GB/s[6] - 互连技术从封闭走向有限开放(如NVLink Fusion)，同时出现开放标准(UALink)与私有协议(ICI/NeuronLink)并存[11][16][26] - 光互连在跨机架场景应用增多(华为UB用5376个400G光模块)，铜缆仍主导机柜内连接[29][3]

NVLink, UALink, NeuronLink, SUE, PCIe – Astera Labs Switch

2025-08-05 16:17

行业与公司 - 行业涉及**AI加速器芯片互联协议**与**数据中心交换机芯片**市场[1][2] - 公司为**Astera Labs (ALAB US)**，专注于PCIe中继器/交换机芯片及定制化互联解决方案[1][12] --- 核心观点与论据 **1 互联协议技术对比** - **NVLink (NVIDIA)** - 单端信号SerDes技术节省80%芯片面积或提升80%带宽密度[3][4] - 速度达900GB/s单向（Blackwell GPU），但仅支持576节点直连，需光纤扩展[5] - **UALink (AMD主导)** - 差分信号SerDes抗干扰强，支持1,024节点铜缆直连[5] - 双版本：UALink 200G（GPU直连专用）与128G（兼容PCIe Gen7，支持异构计算）[6][9] - **SUE (Broadcom)** - 基于以太网物理层但简化协议栈，传输效率高但异构扩展性弱于UALink[10] - **NeuronLink (AWS)** - 改良版PCIe，支持超频，Trainium 2.5采用NeuronLink3（PCIe5），Trainium 3升级至NeuronLink4（PCIe7）[13][15][23] **2 Astera Labs增长驱动** - **AWS Trainium系列合作** - **Scorpio-X交换机芯片**： - Trainium 2.5 Teton PDS机架采用PCIe6交换机（160通道，$1,120/片），每百万芯片价值$5.5亿[17][19] - 配套小交换机芯片（64通道，$400/片），总价值达$17.5亿/百万芯片[20][22] - Trainium 3 Teton Max机架升级至PCIe7/UALink 128G双模交换机（320通道，$2,560/片），总价值$33亿/百万芯片[23][26] - **未来布局**：Trainium 4可能合作设计I/O芯片，潜在收入$1.5亿/百万芯片[27][28] - **AMD MI400系列合作** - 开发UALink 200G交换机（432通道，$3,456/片），每百万GPU价值$5.76亿[29][32] - 预计2026年Q1流片，Q4量产[12][31] **3 关键数据与单位换算** - **带宽计算**： - Trainium 2.5单芯片带宽640GB/s，机架总需求40,960GB[17] - MI400单GPU带宽1,800GB/s，机架总需求129,600GB[32] - **价格假设**： - PCIe6交换机$7/通道，PCIe7升至$8/通道[19][26] - UALink 200G交换机ASP $8/通道[32] --- 其他重要细节 - **技术实现差异**：UALink 128G通过共享PCIe Gen7 PHY层实现双模切换[7] - **时间节点**： - AWS Trainium 2.5 Teton PDS机架2025年Q4推出[16] - AMD Helios机架2026年Q4量产[12][31] - **竞争壁垒**：Astera Labs因同时具备中继器/交换机设计能力被AWS选为I/O芯片合作伙伴[27][28] --- 潜在风险与机会 - **技术替代风险**：NVIDIA NVLink在带宽密度优势可能持续压制对手[4][5] - **市场机会**：PCIe7/UALink双模芯片或成异构计算关键解决方案[9][23]

Astera Labs, Inc.(US:ALAB)

Chip interconnect communication protocols

Semiconductors

Scorpio - X switch chip

NVLink

UALink

NeuronLink

Chip interconnect communication protocols

Semiconductors

Scorpio - X switch chip

NVLink

UALink

NeuronLink