存储层级重构
搜索文档
英伟达出手,SRAM重回C位
36氪· 2026-03-17 19:08
文章核心观点 - AI计算需求正从训练转向推理,用户体验标准从模型大小转向响应速度,这驱动了存储架构的范式转移,曾经因成本高而被边缘化的片上SRAM技术因其极低的访问延迟和确定性的高带宽,正在AI推理领域强势回归,并可能重塑AI芯片与存储市场的格局 [1][4][15] AI推理需求的结构性变化 - 德勤预测到2026年,“推理”将占据全部AI计算能力的三分之二,标志着AI工作负载的历史性转折 [4] - 用户体验的衡量标尺从“模型有多大”转向“回答有多快”,核心指标变为首次响应时间(Time-to-First-Token)和生成流畅度(尾时延) [4] - 在推理的逐字生成(decode)阶段,瓶颈已从算力转向内存带宽,传统GPU需要频繁从片外HBM搬运权重,造成巨大延迟和能耗浪费 [5] SRAM架构的技术优势与性能表现 - SRAM集成在计算核心附近,可显著降低权重与激活数据的访存延迟与抖动,从而改善推理的响应时间表现 [6] - Groq最新发布的Groq 3 LPU单芯片集成500MB片上SRAM,存储带宽高达150TB/s,是主流GPU片外HBM4带宽(约22TB/s)的约7倍 [3] - 以Llama 3.3 70B模型为例,Groq平台在不同上下文长度下能维持200-300+ token/s的稳定推理速度,显著优于传统GPU推理平台 [6] - Cerebras的晶圆级引擎3(WSE-3)芯片集成了高达44GB的片上SRAM,片上存储带宽达到21 PB/s,在OpenAI GPT-OSS 120B推理任务中实现了超过3000 tokens/s的输出速度,较主流GPU云推理快约15倍 [7] 行业巨头与初创公司的战略布局 - 英伟达在GTC 2026正式发布集成Groq LPU架构的推理芯片,其Groq 3 LPX机架方案搭载256个LPU,提供128GB片上SRAM和高达40PB/s的推理加速带宽,该芯片由三星电子代工,预计2026年下半年开始出货 [3] - OpenAI已确定成为英伟达Groq 3 LPU芯片的首批客户,并承诺投入300亿美元采购相关推理算力 [3] - 2025年12月,英伟达斥资200亿美元获得Groq知识产权的非独家授权,并吸纳了其核心工程团队,以弥补GPU在串行推理场景的架构短板 [8][9] - 2026年2月,Cerebras完成10亿美元H轮融资,估值达到230亿美元,并与OpenAI签署了一份高达100亿美元的合同,部署多达750兆瓦的定制AI芯片 [9] - OpenAI推出了首个运行在Cerebras AI加速器上的模型——GPT-5.3-Codex-Spark预览版,支持超过1000 tokens/s的代码生成响应速度 [9] 未来芯片架构与内存层级演进 - 英伟达采取务实路线,将Groq 3 LPU作为独立的推理加速器芯片,与Rubin GPU通过协同设计的架构进行组合,共同构成Vera Rubin平台 [10] - 未来的AI芯片将出现复杂的异构内存层级:底层是负责预填充(prefill)的计算晶圆,中间层是通过3D堆叠提供的大容量SRAM缓存用于高速解码(decode),旁边则通过CoWoS封装着大容量的HBM用于存储海量上下文 [10] - SRAM的回归并非替代HBM,而是推动内存层级走向更精细化分工的多元时代,两者是互补关系 [10][11] - 由于SRAM单元面积是DRAM的5到10倍,每比特成本极高,无法替代HBM作为主内存的角色,存储大模型权重仍需数百GB的HBM或DRAM [11] 对半导体产业链的影响与机遇 - 内存层级的细分可能扩大整个存储市场的总规模,未来数据中心可能需要同时配备用于训练的HBM服务器和用于实时响应的SRAM加速卡 [12] - SRAM直接集成在逻辑芯片内部,其设计与制造完全依赖于顶尖的逻辑制程工艺,这极大地凸显了晶圆代工厂的地位 [12] - 台积电被明确视为主要受益者,因为无论是英伟达采用N3P制程打造下一代LPU,还是其他厂商跟进类似架构,最终都要依赖其先进产线,这不仅意味着更高的晶圆平均销售单价,更巩固了其在AI半导体制造的核心地位 [13] - 中国台湾的存储供应链在SRAM路线中找到了新机会:华邦电的定制化内存业务中的PSRAM被视为成本与性能的折中方案;力积电通过3D AI Foundry策略展现了承接相关代工的潜力;钰创的产品线覆盖符合Groq LPU采用标准的SRAM;爱普则提供在功耗和带宽上实现倍数级提升的新一代ApSRAM [14]