SRAM Architecture
搜索文档
SRAM 作为新型计算架构:Groq LPU、Cerebras WSE 与 Google TPU 的架构对比研究-SRAM as the New Compute Fabric_ A Comparative Architecture Study of Groq LPU, Cerebras WSE, and Google TPU
2026-04-13 14:13
涉及的行业与公司 * **行业**:人工智能(AI)计算硬件、半导体制造与封装、数据中心基础设施[1][5] * **公司**: * **NVIDIA (英伟达)**:主导者,通过授权整合Groq LPU技术,推出LPU及LPX系统,并与GPU协同工作[3][75][126] * **Groq**:SRAM中心化加速器公司,其LPU架构被NVIDIA采用[3][75] * **Samsung (三星)**:LPU芯片的制造合作伙伴,采用其4nm工艺,并提供DDR5/LPDDR5内存[53][54][127] * **Cerebras Systems**:开发晶圆级引擎(WSE)的AI硬件公司[93][96] * **d-Matrix**:专注于3D数字内存计算(3DIMC)的推理加速器公司[91][92] * 其他竞争者:**Google (TPU)**、**Meta (MTIA)**、**AWS (Trainium/Inferentia)**、**Alibaba (Zhenwu 810E)**[77][80] 核心观点与论据:AI推理新瓶颈与LPU架构优势 * **AI推理新瓶颈**:随着大语言模型(LLM)和生成式AI代理的快速发展,推理速度和能效成为关键用户体验因素[1] 传统GPU架构为浮点计算和高吞吐量优化,但在推理的解码阶段,模型需反复访问前序层的中间结果,导致**内存访问延迟和带宽成为新瓶颈**[3] * **内存技术对比与选择**: * **SRAM (静态随机存取存储器)**:访问时间约1纳秒,无需刷新,可集成在计算单元旁实现极低延迟和高带宽,但每比特面积更大、成本更高[9][10] * **DRAM/HBM (动态随机存取存储器/高带宽内存)**:密度高、容量大,但访问延迟慢(DRAM: 10-15纳秒;HBM: 375-500纳秒),且HBM面临供应和先进封装瓶颈[9][11][69] * **LPU的设计取舍**:牺牲部分计算密度和总DRAM容量,将大部分芯片面积分配给SRAM,以追求超高带宽和超低延迟,针对推理工作负载的真实瓶颈[12][21][25] * **LPU架构深度解析**: * **超大片上SRAM与带宽**:NVIDIA Groq 3 LPU采用三星4nm工艺,单芯片集成**512MB SRAM**,提供**150 TB/s**内存带宽,是Rubin GPU HBM4带宽(22 TB/s)的约一个数量级[22] 一个LPX机架由256个LPU组成,总SRAM达128GB,聚合带宽**40 PB/s**[22] * **确定性执行模型**:采用VLIW架构和编译器驱动的调度,形成空间执行模型,所有数据传输、计算和同步均在编译时预先确定,消除了缓存未命中导致的抖动,提供高度稳定的尾延迟[26][27][29] * **RealScale芯片互连**:每个LPU通过96个C2C端口互连,每个链路112 Gbps,提供约2.5 TB/s的片间带宽,软件定义路由确保数据在预定时间窗口到达,强化确定性[36][37] * **异构推理与协同工作模式 (AFD)**: * **注意力-前馈网络解耦**:GPU处理计算密集的预填充和注意力阶段,LPU处理内存带宽密集的FFN/MoE专家计算,两者在解码阶段循环协作[41][42][45] * **性能与能效提升**:LPX机架与NVL72 GPU系统配对,运行万亿参数模型时,推理吞吐量每兆瓦比Blackwell NVL72系统高**35倍**[46] 据称可将计算成本降至约**每百万令牌45美元**[112] * **动态调度系统**:NVIDIA的Dynamo系统动态编排GPU和LPU之间的AFD循环,实现KV感知路由,最小化跨租户干扰,稳定尾延迟[51][52] 其他重要内容:产业影响、竞争格局与未来展望 * **供应链与市场战略**: * **NVIDIA的布局**:2025年以约**200亿美元**获得Groq核心技术非独家授权,快速将LPU产品化并整合至Vera Rubin平台,类比其2019年收购Mellanox的战略意义[75] * **三星的获益**:作为LPU制造商和内存供应商,其4nm工艺初期月产能约9000片晶圆,后增至约15000片,良率超**80%**,每片晶圆约产**65个LPU芯片**[54] LPU架构缓解了HBM供应压力,为三星创造了差异化的收入来源[56][88] * **对DRAM需求的影响**:LPU并未完全取代DRAM,每个LPX计算托盘仍需约**384GB DDR5 DRAM**,单个LPX机架可能配备高达**12TB DDR5 DRAM**,反而扩大了整体DRAM需求[59][81][84] * **竞争格局与挑战**: * **专用推理ASIC兴起**:预计到2026年,非GPU的XPU加速器将成为数据中心计算投资中增长最快的部分,年增长率**22%**,超过GPU的**19%**和CPU的**14%**[80] * **初创公司生态位**:Cerebras的WSE和d-Matrix的3DIMC等在推理效率上有优势,但缺乏CUDA生态和软件栈支持[89][91][93] 2025年出现推理芯片公司整合潮,预示未来可能形成寡头市场结构[99] * **技术细节与性能分析**: * **SRAM集成密度**:在4nm节点,LP30的SRAM密度约为**0.32 MB/mm²**,介于d-Matrix和Cerebras之间[100][101] * **计算性能对比**:单个LPU提供约**1.23 PFLOPS**的计算性能,远低于B200 GPU的数十PFLOPS,明确针对内存带宽受限工作负载优化[25][107][108] * **功耗与面积权衡**:SRAM面积和功耗显著高于DRAM,LPU采用电源门控和层次化时钟门控来缓解静态泄漏[106] * **未来发展趋势**: * **异构计算成为常态**:GPU、LPU、DPU、CPU各司其职的异构架构预计将逐步取代纯GPU推理,成为云数据中心标准[64][65][128] * **算法与硬件协同**:LPU的确定性执行模型使其特别适合作为**推测解码**中的草稿模型引擎,与GPU验证器协同进一步提升吞吐量[66][67][124] * **技术演进方向**:未来LPU可能通过**NVLink**与GPU更紧密集成,并探索**3D SRAM堆叠**以增加容量[115][117] 软件栈将持续集成,降低使用门槛[118][119] * **对半导体产业影响**:推理ASIC的崛起正在推动半导体行业从单纯关注计算缩放(摩尔定律)转向内存带宽和延迟优化[128] 中国台湾半导体产业可在DDR5模块、服务器主板等领域参与异构生态系统[121]