光学互联 - 财报，业绩电话会，研报，新闻

光学互联

搜索文档

SemiAnalysis：GTC 2026深度解读，推理王国全面扩张

傅里叶的猫· 2026-03-24 16:33

文章核心观点文章基于对GTC 2026的深度分析，系统阐述了英伟达通过整合其创新的LPU（语言处理单元）与GPU，并引入注意力-FFN分离（AFD）等新架构，旨在构建一个覆盖硬件、互联、存储、软件和运维的完整AI基础设施平台，以巩固其行业领导地位并应对日益复杂的AI工作负载需求[1][67] Groq LPU架构与价值 - **核心产品与定位**：Groq的核心产品是LPU，这是一种专为语言模型推理设计的处理器，其设计路线与英伟达GPU追求高吞吐量不同，LPU主打超低延迟，以优化用户体验（如首token时间TTFT）[3] - **架构创新**：LPU采用独特的“切片”架构，将不同功能（如向量运算VXM、数据读写MEM、张量变换SXM、矩阵乘法MXM）在空间上横向排列，数据横向流动，指令纵向传递[3] - **性能关键**：采用单级SRAM替代传统多级缓存，结合高带宽SRAM和激进的流水线设计，是实现超低延迟的关键[4] - **SRAM的权衡**：大量使用SRAM带来了极低的延迟和快速的单用户token生成速度，但总吞吐量受限，因为有限的SRAM容量（如第三代LP30为500MB）很快被模型权重占满，留给KV Cache的空间少，无法批量处理大量用户[9][10] LPU发展历程与供应链 - **第一代LPU**：采用GlobalFoundries的14nm工艺，拥有230MB SRAM，提供750 TFLOPs的INT8算力[5] - **第二代LPU**：计划采用三星SF4X工艺，但因来自AlphaWave的C2C SerDes IP无法达到112G速度而失败，未能量产[5][6] - **第三代LPU（LP30）**：采用三星SF4工艺，SRAM翻倍至500MB，算力提升至1.2 PFLOPs FP8，芯片尺寸接近光罩极限[6] - **未来路线图**：LP35是LP30的小改款，增加NVFP4数字格式支持。LP40将是英伟达深度参与设计的首款LPU，将转向台积电N3P工艺，采用CoWoS-R封装，支持NVLink协议，并引入混合键合DRAM技术[8] - **供应链策略**：LP30使用三星SF4工艺，不占用紧张的台积电N3产能，也无需HBM，这是竞争对手难以复制的增量产能[13] 注意力-FFN分离（AFD）技术 - **技术原理**：将Transformer模型层中的Attention（注意力）和FFN（前馈网络）计算分离。Attention放在GPU上处理，因其擅长处理动态工作负载且HBM容量可全用于KV Cache；FFN放在LPU上处理，因其架构具有确定性，适合静态计算[17][18] - **性能收益**：当GPU只执行注意力操作时，其HBM可完全用于KV Cache，从而增加能处理的总token数，提升每个专家处理的平均token数[19] - **通信优化**：采用Ping-Pong流水线并行技术隐藏GPU与LPU之间的token路由（分发与合并）通信延迟，实现计算与通信重叠[21] - **其他应用**：LPU还可用于加速推测解码，通过小型草稿模型预测多个token再由主模型验证，可将每个解码步骤的输出token数提升1.5到2倍[23] LPX机架系统设计 - **系统构成**：展示的LPX机架包含32个1U LPU计算托盘和2个Spectrum-X交换机[26]。每个计算托盘包含16个LPU、2个Altera FPGA、1个Intel Granite Rapids主机CPU和1个BlueField-4前端模块[28] - **LPU布局**：采用“腹对腹”安装（8个在PCB顶面，8个在底面），以减少PCB走线长度[32] - **FPGA作用**：充当“Fabric Expansion Logic”，功能包括：协议转换（C2C转以太网、C2C转PCIe）、节点内通信管理、提供最多256GB的额外DDR5内存池用于KV Cache[32][33] - **网络架构**：分为Scale-up（C2C网络）和Scale-out（通过Spectrum-X与GPU交互）网络。每机架Scale-up总带宽宣称达640TB/s[33] - **连接器供应商**：Amphenol为LPX提供背板所有连接器，但因需求旺盛，已将Paladin连接器和背板电缆盒制造授权给FIT[35] Kyber机架更新与互联技术 - **密度提升**：Kyber机架计算刀片密度翻倍，从每刀片2个GPU变为4个Rubin Ultra GPU，机箱数量减半，总GPU数达144个[36][37] - **互联带宽**：每个Rubin Ultra逻辑GPU提供14.4Tbit/s单向的scale-up带宽，需72个NVLink 7交换芯片实现全互联[39] - **连接器变化**：英伟达为Kyber设计了专有Voronoi连接器规格，不再使用Amphenol的Paladin，FIT在竞标中领先[43] - **更大规模互联探索**：供应链已在探索NVL288概念，即连接两个NVL144 Kyber机架，实现288个GPU全互联，这对互联带宽和电缆数量提出极高要求[44] CPO（共封装光学）路线图 - **部署策略**：英伟达的策略是优先使用铜缆，仅在必要时使用光学器件。CPO将主要用于实现更大规模计算系统的机架间互联[45][46] - **Rubin代部署**：NVL72和NVL144机架内采用全铜scale-up。NVL576（8个Oberon机架）在机架间使用CPO，主要用于小批量测试[47][50] - **Feynman代展望**：NVL1152（8个Kyber机架）确定使用机架间CPO。机架内互联是采用铜缆还是CPO尚有争议，当前基准预测是机架内铜缆加机架间CPO[47][49][53] - **挑战**：大规模部署CPO（如NVL576）面临光学器件数量巨大导致的BOM成本暴增问题[52] Vera ETL256 CPU机架 - **设计目标**：为解决AI工作负载中日益增长的CPU需求瓶颈，实现前所未有的单机架256个CPU的密度，必须采用液冷[55][56] - **架构设计**：机架包含32个计算托盘（每托盘8个Vera CPU）和4个1U MGX ETL交换托盘，采用对称分割设计以最小化电缆长度，机架内通过Spectrum-X实现全铜互联[56] - **协同工作流**：Vera CPU集群与GPU集群（如NVL72或NVL144）协同，负责数据预处理、后处理等工作[57] 存储层标准化（CMX与STX） - **存储层瓶颈**：KV Cache随序列长度和用户数线性增长，设备HBM容量不足，成为推理基础设施瓶颈[58] - **CMX（原ICMS）**：定位为G3.5存储层，介于主机DRAM（G2）和共享存储（G4）之间，本质是通过BlueField DPU连接的存储服务器，提供更智能的数据管理[59] - **STX参考架构**：旨在标准化存储层设计，明确指定集群所需的驱动器、Vera CPU、BlueField-4 DPU等组件配置[59] - **生态整合**：CMX和STX是英伟达将其控制力从计算、网络层扩展至存储层的努力[63] 供应链关键参与者 - **IP供应商**：LP30/LP35的SerDes IP来自高通收购的AlphaWave，LP40将转用英伟达自有的NVLink SerDes IP[6][64] - **PCB供应商**：LPX计算托盘需要极高规格的PCB，每个主板PCB约7000美元，供应商为Victory Giant和WUS[32][64] - **连接器供应商**：Amphenol是LPX背板连接器主要供应商。FIT获得了Amphenol的制造授权，并在Kyber的Voronoi连接器竞标中领先[35][43][64] - **光学模块争议**：Kyber机架原型采用中板光学模块（MBOM）替代可插拔OSFP笼子，以降低成本、提高性能，但超大规模客户抵制，因其限制了供应商选择和维护灵活性[65] 英伟达生态系统与竞争壁垒 - **平台化转型**：英伟达正从芯片公司转向平台公司，构建覆盖硬件、互联、存储、软件、运维的完整AI基础设施栈[67] - **多层护城河**： - **性能护城河**：最先进的GPU/LPU架构、最快的互联技术[68] - **生态系统护城河**：CUDA开发者生态、完整的软件栈[68] - **标准护城河**：推动NVLink、MGX、CMX/STX成为事实标准[68] - **供应链护城河**：与台积电、HBM供应商的深度合作，关键组件的专有设计[68] - **知识护城河**：系统级优化know-how和大规模部署经验[68] - **竞争格局**：竞争对手（如AMD、Intel）面临的不只是芯片性能差距，更是整个生态系统的差距，包括系统解决方案、软件生态和规模经济[68]