SRAM Architecture - 财报，业绩电话会，研报，新闻

SRAM Architecture

搜索文档

SRAM 作为新型计算架构：Groq LPU、Cerebras WSE 与 Google TPU 的架构对比研究-SRAM as the New Compute Fabric_ A Comparative Architecture Study of Groq LPU, Cerebras WSE, and Google TPU

2026-04-13 14:13

涉及的行业与公司 * **行业**：人工智能（AI）计算硬件、半导体制造与封装、数据中心基础设施[1][5] * **公司**： * **NVIDIA (英伟达)**：主导者，通过授权整合Groq LPU技术，推出LPU及LPX系统，并与GPU协同工作[3][75][126] * **Groq**：SRAM中心化加速器公司，其LPU架构被NVIDIA采用[3][75] * **Samsung (三星)**：LPU芯片的制造合作伙伴，采用其4nm工艺，并提供DDR5/LPDDR5内存[53][54][127] * **Cerebras Systems**：开发晶圆级引擎（WSE）的AI硬件公司[93][96] * **d-Matrix**：专注于3D数字内存计算（3DIMC）的推理加速器公司[91][92] * 其他竞争者：**Google (TPU)**、**Meta (MTIA)**、**AWS (Trainium/Inferentia)**、**Alibaba (Zhenwu 810E)**[77][80] 核心观点与论据：AI推理新瓶颈与LPU架构优势 * **AI推理新瓶颈**：随着大语言模型（LLM）和生成式AI代理的快速发展，推理速度和能效成为关键用户体验因素[1] 传统GPU架构为浮点计算和高吞吐量优化，但在推理的解码阶段，模型需反复访问前序层的中间结果，导致**内存访问延迟和带宽成为新瓶颈**[3] * **内存技术对比与选择**： * **SRAM (静态随机存取存储器)**：访问时间约1纳秒，无需刷新，可集成在计算单元旁实现极低延迟和高带宽，但每比特面积更大、成本更高[9][10] * **DRAM/HBM (动态随机存取存储器/高带宽内存)**：密度高、容量大，但访问延迟慢（DRAM: 10-15纳秒；HBM: 375-500纳秒），且HBM面临供应和先进封装瓶颈[9][11][69] * **LPU的设计取舍**：牺牲部分计算密度和总DRAM容量，将大部分芯片面积分配给SRAM，以追求超高带宽和超低延迟，针对推理工作负载的真实瓶颈[12][21][25] * **LPU架构深度解析**： * **超大片上SRAM与带宽**：NVIDIA Groq 3 LPU采用三星4nm工艺，单芯片集成**512MB SRAM**，提供**150 TB/s**内存带宽，是Rubin GPU HBM4带宽（22 TB/s）的约一个数量级[22] 一个LPX机架由256个LPU组成，总SRAM达128GB，聚合带宽**40 PB/s**[22] * **确定性执行模型**：采用VLIW架构和编译器驱动的调度，形成空间执行模型，所有数据传输、计算和同步均在编译时预先确定，消除了缓存未命中导致的抖动，提供高度稳定的尾延迟[26][27][29] * **RealScale芯片互连**：每个LPU通过96个C2C端口互连，每个链路112 Gbps，提供约2.5 TB/s的片间带宽，软件定义路由确保数据在预定时间窗口到达，强化确定性[36][37] * **异构推理与协同工作模式 (AFD)**： * **注意力-前馈网络解耦**：GPU处理计算密集的预填充和注意力阶段，LPU处理内存带宽密集的FFN/MoE专家计算，两者在解码阶段循环协作[41][42][45] * **性能与能效提升**：LPX机架与NVL72 GPU系统配对，运行万亿参数模型时，推理吞吐量每兆瓦比Blackwell NVL72系统高**35倍**[46] 据称可将计算成本降至约**每百万令牌45美元**[112] * **动态调度系统**：NVIDIA的Dynamo系统动态编排GPU和LPU之间的AFD循环，实现KV感知路由，最小化跨租户干扰，稳定尾延迟[51][52] 其他重要内容：产业影响、竞争格局与未来展望 * **供应链与市场战略**： * **NVIDIA的布局**：2025年以约**200亿美元**获得Groq核心技术非独家授权，快速将LPU产品化并整合至Vera Rubin平台，类比其2019年收购Mellanox的战略意义[75] * **三星的获益**：作为LPU制造商和内存供应商，其4nm工艺初期月产能约9000片晶圆，后增至约15000片，良率超**80%**，每片晶圆约产**65个LPU芯片**[54] LPU架构缓解了HBM供应压力，为三星创造了差异化的收入来源[56][88] * **对DRAM需求的影响**：LPU并未完全取代DRAM，每个LPX计算托盘仍需约**384GB DDR5 DRAM**，单个LPX机架可能配备高达**12TB DDR5 DRAM**，反而扩大了整体DRAM需求[59][81][84] * **竞争格局与挑战**： * **专用推理ASIC兴起**：预计到2026年，非GPU的XPU加速器将成为数据中心计算投资中增长最快的部分，年增长率**22%**，超过GPU的**19%**和CPU的**14%**[80] * **初创公司生态位**：Cerebras的WSE和d-Matrix的3DIMC等在推理效率上有优势，但缺乏CUDA生态和软件栈支持[89][91][93] 2025年出现推理芯片公司整合潮，预示未来可能形成寡头市场结构[99] * **技术细节与性能分析**： * **SRAM集成密度**：在4nm节点，LP30的SRAM密度约为**0.32 MB/mm²**，介于d-Matrix和Cerebras之间[100][101] * **计算性能对比**：单个LPU提供约**1.23 PFLOPS**的计算性能，远低于B200 GPU的数十PFLOPS，明确针对内存带宽受限工作负载优化[25][107][108] * **功耗与面积权衡**：SRAM面积和功耗显著高于DRAM，LPU采用电源门控和层次化时钟门控来缓解静态泄漏[106] * **未来发展趋势**： * **异构计算成为常态**：GPU、LPU、DPU、CPU各司其职的异构架构预计将逐步取代纯GPU推理，成为云数据中心标准[64][65][128] * **算法与硬件协同**：LPU的确定性执行模型使其特别适合作为**推测解码**中的草稿模型引擎，与GPU验证器协同进一步提升吞吐量[66][67][124] * **技术演进方向**：未来LPU可能通过**NVLink**与GPU更紧密集成，并探索**3D SRAM堆叠**以增加容量[115][117] 软件栈将持续集成，降低使用门槛[118][119] * **对半导体产业影响**：推理ASIC的崛起正在推动半导体行业从单纯关注计算缩放（摩尔定律）转向内存带宽和延迟优化[128] 中国台湾半导体产业可在DDR5模块、服务器主板等领域参与异构生态系统[121]

英伟达(US:NVDA)

AI Inference

SRAM Architecture

Heterogeneous Computing

Heterogeneous Computing

Semiconductors

Groq LPU

Cerebras WSE