SRAM 作为新型计算架构:Groq LPU、Cerebras WSE 与 Google TPU 的架构对比研究-SRAM as the New Compute Fabric_ A Comparative Architecture Study of Groq LPU, Cerebras WSE, and Google TPU
英伟达英伟达(US:NVDA)2026-04-13 14:13

涉及的行业与公司 * 行业:人工智能(AI)计算硬件、半导体制造与封装、数据中心基础设施[1][5] * 公司: * NVIDIA (英伟达):主导者,通过授权整合Groq LPU技术,推出LPU及LPX系统,并与GPU协同工作[3][75][126] * Groq:SRAM中心化加速器公司,其LPU架构被NVIDIA采用[3][75] * Samsung (三星):LPU芯片的制造合作伙伴,采用其4nm工艺,并提供DDR5/LPDDR5内存[53][54][127] * Cerebras Systems:开发晶圆级引擎(WSE)的AI硬件公司[93][96] * d-Matrix:专注于3D数字内存计算(3DIMC)的推理加速器公司[91][92] * 其他竞争者:Google (TPU)Meta (MTIA)AWS (Trainium/Inferentia)Alibaba (Zhenwu 810E)[77][80] 核心观点与论据:AI推理新瓶颈与LPU架构优势 * AI推理新瓶颈:随着大语言模型(LLM)和生成式AI代理的快速发展,推理速度和能效成为关键用户体验因素[1] 传统GPU架构为浮点计算和高吞吐量优化,但在推理的解码阶段,模型需反复访问前序层的中间结果,导致内存访问延迟和带宽成为新瓶颈[3] * 内存技术对比与选择: * SRAM (静态随机存取存储器):访问时间约1纳秒,无需刷新,可集成在计算单元旁实现极低延迟和高带宽,但每比特面积更大、成本更高[9][10] * DRAM/HBM (动态随机存取存储器/高带宽内存):密度高、容量大,但访问延迟慢(DRAM: 10-15纳秒;HBM: 375-500纳秒),且HBM面临供应和先进封装瓶颈[9][11][69] * LPU的设计取舍:牺牲部分计算密度和总DRAM容量,将大部分芯片面积分配给SRAM,以追求超高带宽和超低延迟,针对推理工作负载的真实瓶颈[12][21][25] * LPU架构深度解析: * 超大片上SRAM与带宽:NVIDIA Groq 3 LPU采用三星4nm工艺,单芯片集成512MB SRAM,提供150 TB/s内存带宽,是Rubin GPU HBM4带宽(22 TB/s)的约一个数量级[22] 一个LPX机架由256个LPU组成,总SRAM达128GB,聚合带宽40 PB/s[22] * 确定性执行模型:采用VLIW架构和编译器驱动的调度,形成空间执行模型,所有数据传输、计算和同步均在编译时预先确定,消除了缓存未命中导致的抖动,提供高度稳定的尾延迟[26][27][29] * RealScale芯片互连:每个LPU通过96个C2C端口互连,每个链路112 Gbps,提供约2.5 TB/s的片间带宽,软件定义路由确保数据在预定时间窗口到达,强化确定性[36][37] * 异构推理与协同工作模式 (AFD): * 注意力-前馈网络解耦:GPU处理计算密集的预填充和注意力阶段,LPU处理内存带宽密集的FFN/MoE专家计算,两者在解码阶段循环协作[41][42][45] * 性能与能效提升:LPX机架与NVL72 GPU系统配对,运行万亿参数模型时,推理吞吐量每兆瓦比Blackwell NVL72系统高35倍[46] 据称可将计算成本降至约每百万令牌45美元[112] * 动态调度系统:NVIDIA的Dynamo系统动态编排GPU和LPU之间的AFD循环,实现KV感知路由,最小化跨租户干扰,稳定尾延迟[51][52] 其他重要内容:产业影响、竞争格局与未来展望 * 供应链与市场战略: * NVIDIA的布局:2025年以约200亿美元获得Groq核心技术非独家授权,快速将LPU产品化并整合至Vera Rubin平台,类比其2019年收购Mellanox的战略意义[75] * 三星的获益:作为LPU制造商和内存供应商,其4nm工艺初期月产能约9000片晶圆,后增至约15000片,良率超80%,每片晶圆约产65个LPU芯片[54] LPU架构缓解了HBM供应压力,为三星创造了差异化的收入来源[56][88] * 对DRAM需求的影响:LPU并未完全取代DRAM,每个LPX计算托盘仍需约384GB DDR5 DRAM,单个LPX机架可能配备高达12TB DDR5 DRAM,反而扩大了整体DRAM需求[59][81][84] * 竞争格局与挑战: * 专用推理ASIC兴起:预计到2026年,非GPU的XPU加速器将成为数据中心计算投资中增长最快的部分,年增长率22%,超过GPU的19%和CPU的14%[80] * 初创公司生态位:Cerebras的WSE和d-Matrix的3DIMC等在推理效率上有优势,但缺乏CUDA生态和软件栈支持[89][91][93] 2025年出现推理芯片公司整合潮,预示未来可能形成寡头市场结构[99] * 技术细节与性能分析: * SRAM集成密度:在4nm节点,LP30的SRAM密度约为0.32 MB/mm²,介于d-Matrix和Cerebras之间[100][101] * 计算性能对比:单个LPU提供约1.23 PFLOPS的计算性能,远低于B200 GPU的数十PFLOPS,明确针对内存带宽受限工作负载优化[25][107][108] * 功耗与面积权衡:SRAM面积和功耗显著高于DRAM,LPU采用电源门控和层次化时钟门控来缓解静态泄漏[106] * 未来发展趋势: * 异构计算成为常态:GPU、LPU、DPU、CPU各司其职的异构架构预计将逐步取代纯GPU推理,成为云数据中心标准[64][65][128] * 算法与硬件协同:LPU的确定性执行模型使其特别适合作为推测解码中的草稿模型引擎,与GPU验证器协同进一步提升吞吐量[66][67][124] * 技术演进方向:未来LPU可能通过NVLink与GPU更紧密集成,并探索3D SRAM堆叠以增加容量[115][117] 软件栈将持续集成,降低使用门槛[118][119] * 对半导体产业影响:推理ASIC的崛起正在推动半导体行业从单纯关注计算缩放(摩尔定律)转向内存带宽和延迟优化[128] 中国台湾半导体产业可在DDR5模块、服务器主板等领域参与异构生态系统[121]

SRAM 作为新型计算架构:Groq LPU、Cerebras WSE 与 Google TPU 的架构对比研究-SRAM as the New Compute Fabric_ A Comparative Architecture Study of Groq LPU, Cerebras WSE, and Google TPU - Reportify