Workflow
光学互联
icon
搜索文档
SemiAnalysis:GTC 2026深度解读,推理王国全面扩张
傅里叶的猫· 2026-03-24 16:33
文章核心观点 文章基于对GTC 2026的深度分析,系统阐述了英伟达通过整合其创新的LPU(语言处理单元)与GPU,并引入注意力-FFN分离(AFD)等新架构,旨在构建一个覆盖硬件、互联、存储、软件和运维的完整AI基础设施平台,以巩固其行业领导地位并应对日益复杂的AI工作负载需求[1][67] Groq LPU架构与价值 - **核心产品与定位**:Groq的核心产品是LPU,这是一种专为语言模型推理设计的处理器,其设计路线与英伟达GPU追求高吞吐量不同,LPU主打超低延迟,以优化用户体验(如首token时间TTFT)[3] - **架构创新**:LPU采用独特的“切片”架构,将不同功能(如向量运算VXM、数据读写MEM、张量变换SXM、矩阵乘法MXM)在空间上横向排列,数据横向流动,指令纵向传递[3] - **性能关键**:采用单级SRAM替代传统多级缓存,结合高带宽SRAM和激进的流水线设计,是实现超低延迟的关键[4] - **SRAM的权衡**:大量使用SRAM带来了极低的延迟和快速的单用户token生成速度,但总吞吐量受限,因为有限的SRAM容量(如第三代LP30为500MB)很快被模型权重占满,留给KV Cache的空间少,无法批量处理大量用户[9][10] LPU发展历程与供应链 - **第一代LPU**:采用GlobalFoundries的14nm工艺,拥有230MB SRAM,提供750 TFLOPs的INT8算力[5] - **第二代LPU**:计划采用三星SF4X工艺,但因来自AlphaWave的C2C SerDes IP无法达到112G速度而失败,未能量产[5][6] - **第三代LPU(LP30)**:采用三星SF4工艺,SRAM翻倍至500MB,算力提升至1.2 PFLOPs FP8,芯片尺寸接近光罩极限[6] - **未来路线图**:LP35是LP30的小改款,增加NVFP4数字格式支持。LP40将是英伟达深度参与设计的首款LPU,将转向台积电N3P工艺,采用CoWoS-R封装,支持NVLink协议,并引入混合键合DRAM技术[8] - **供应链策略**:LP30使用三星SF4工艺,不占用紧张的台积电N3产能,也无需HBM,这是竞争对手难以复制的增量产能[13] 注意力-FFN分离(AFD)技术 - **技术原理**:将Transformer模型层中的Attention(注意力)和FFN(前馈网络)计算分离。Attention放在GPU上处理,因其擅长处理动态工作负载且HBM容量可全用于KV Cache;FFN放在LPU上处理,因其架构具有确定性,适合静态计算[17][18] - **性能收益**:当GPU只执行注意力操作时,其HBM可完全用于KV Cache,从而增加能处理的总token数,提升每个专家处理的平均token数[19] - **通信优化**:采用Ping-Pong流水线并行技术隐藏GPU与LPU之间的token路由(分发与合并)通信延迟,实现计算与通信重叠[21] - **其他应用**:LPU还可用于加速推测解码,通过小型草稿模型预测多个token再由主模型验证,可将每个解码步骤的输出token数提升1.5到2倍[23] LPX机架系统设计 - **系统构成**:展示的LPX机架包含32个1U LPU计算托盘和2个Spectrum-X交换机[26]。每个计算托盘包含16个LPU、2个Altera FPGA、1个Intel Granite Rapids主机CPU和1个BlueField-4前端模块[28] - **LPU布局**:采用“腹对腹”安装(8个在PCB顶面,8个在底面),以减少PCB走线长度[32] - **FPGA作用**:充当“Fabric Expansion Logic”,功能包括:协议转换(C2C转以太网、C2C转PCIe)、节点内通信管理、提供最多256GB的额外DDR5内存池用于KV Cache[32][33] - **网络架构**:分为Scale-up(C2C网络)和Scale-out(通过Spectrum-X与GPU交互)网络。每机架Scale-up总带宽宣称达640TB/s[33] - **连接器供应商**:Amphenol为LPX提供背板所有连接器,但因需求旺盛,已将Paladin连接器和背板电缆盒制造授权给FIT[35] Kyber机架更新与互联技术 - **密度提升**:Kyber机架计算刀片密度翻倍,从每刀片2个GPU变为4个Rubin Ultra GPU,机箱数量减半,总GPU数达144个[36][37] - **互联带宽**:每个Rubin Ultra逻辑GPU提供14.4Tbit/s单向的scale-up带宽,需72个NVLink 7交换芯片实现全互联[39] - **连接器变化**:英伟达为Kyber设计了专有Voronoi连接器规格,不再使用Amphenol的Paladin,FIT在竞标中领先[43] - **更大规模互联探索**:供应链已在探索NVL288概念,即连接两个NVL144 Kyber机架,实现288个GPU全互联,这对互联带宽和电缆数量提出极高要求[44] CPO(共封装光学)路线图 - **部署策略**:英伟达的策略是优先使用铜缆,仅在必要时使用光学器件。CPO将主要用于实现更大规模计算系统的机架间互联[45][46] - **Rubin代部署**:NVL72和NVL144机架内采用全铜scale-up。NVL576(8个Oberon机架)在机架间使用CPO,主要用于小批量测试[47][50] - **Feynman代展望**:NVL1152(8个Kyber机架)确定使用机架间CPO。机架内互联是采用铜缆还是CPO尚有争议,当前基准预测是机架内铜缆加机架间CPO[47][49][53] - **挑战**:大规模部署CPO(如NVL576)面临光学器件数量巨大导致的BOM成本暴增问题[52] Vera ETL256 CPU机架 - **设计目标**:为解决AI工作负载中日益增长的CPU需求瓶颈,实现前所未有的单机架256个CPU的密度,必须采用液冷[55][56] - **架构设计**:机架包含32个计算托盘(每托盘8个Vera CPU)和4个1U MGX ETL交换托盘,采用对称分割设计以最小化电缆长度,机架内通过Spectrum-X实现全铜互联[56] - **协同工作流**:Vera CPU集群与GPU集群(如NVL72或NVL144)协同,负责数据预处理、后处理等工作[57] 存储层标准化(CMX与STX) - **存储层瓶颈**:KV Cache随序列长度和用户数线性增长,设备HBM容量不足,成为推理基础设施瓶颈[58] - **CMX(原ICMS)**:定位为G3.5存储层,介于主机DRAM(G2)和共享存储(G4)之间,本质是通过BlueField DPU连接的存储服务器,提供更智能的数据管理[59] - **STX参考架构**:旨在标准化存储层设计,明确指定集群所需的驱动器、Vera CPU、BlueField-4 DPU等组件配置[59] - **生态整合**:CMX和STX是英伟达将其控制力从计算、网络层扩展至存储层的努力[63] 供应链关键参与者 - **IP供应商**:LP30/LP35的SerDes IP来自高通收购的AlphaWave,LP40将转用英伟达自有的NVLink SerDes IP[6][64] - **PCB供应商**:LPX计算托盘需要极高规格的PCB,每个主板PCB约7000美元,供应商为Victory Giant和WUS[32][64] - **连接器供应商**:Amphenol是LPX背板连接器主要供应商。FIT获得了Amphenol的制造授权,并在Kyber的Voronoi连接器竞标中领先[35][43][64] - **光学模块争议**:Kyber机架原型采用中板光学模块(MBOM)替代可插拔OSFP笼子,以降低成本、提高性能,但超大规模客户抵制,因其限制了供应商选择和维护灵活性[65] 英伟达生态系统与竞争壁垒 - **平台化转型**:英伟达正从芯片公司转向平台公司,构建覆盖硬件、互联、存储、软件、运维的完整AI基础设施栈[67] - **多层护城河**: - **性能护城河**:最先进的GPU/LPU架构、最快的互联技术[68] - **生态系统护城河**:CUDA开发者生态、完整的软件栈[68] - **标准护城河**:推动NVLink、MGX、CMX/STX成为事实标准[68] - **供应链护城河**:与台积电、HBM供应商的深度合作,关键组件的专有设计[68] - **知识护城河**:系统级优化know-how和大规模部署经验[68] - **竞争格局**:竞争对手(如AMD、Intel)面临的不只是芯片性能差距,更是整个生态系统的差距,包括系统解决方案、软件生态和规模经济[68]