存储层级重构 - 财报，业绩电话会，研报，新闻

存储层级重构

搜索文档

36氪· 2026-03-17 19:08

文章核心观点 - AI计算需求正从训练转向推理，用户体验标准从模型大小转向响应速度，这驱动了存储架构的范式转移，曾经因成本高而被边缘化的片上SRAM技术因其极低的访问延迟和确定性的高带宽，正在AI推理领域强势回归，并可能重塑AI芯片与存储市场的格局 [1][4][15] AI推理需求的结构性变化 - 德勤预测到2026年，“推理”将占据全部AI计算能力的三分之二，标志着AI工作负载的历史性转折 [4] - 用户体验的衡量标尺从“模型有多大”转向“回答有多快”，核心指标变为首次响应时间（Time-to-First-Token）和生成流畅度（尾时延） [4] - 在推理的逐字生成（decode）阶段，瓶颈已从算力转向内存带宽，传统GPU需要频繁从片外HBM搬运权重，造成巨大延迟和能耗浪费 [5] SRAM架构的技术优势与性能表现 - SRAM集成在计算核心附近，可显著降低权重与激活数据的访存延迟与抖动，从而改善推理的响应时间表现 [6] - Groq最新发布的Groq 3 LPU单芯片集成500MB片上SRAM，存储带宽高达150TB/s，是主流GPU片外HBM4带宽（约22TB/s）的约7倍 [3] - 以Llama 3.3 70B模型为例，Groq平台在不同上下文长度下能维持200-300+ token/s的稳定推理速度，显著优于传统GPU推理平台 [6] - Cerebras的晶圆级引擎3（WSE-3）芯片集成了高达44GB的片上SRAM，片上存储带宽达到21 PB/s，在OpenAI GPT-OSS 120B推理任务中实现了超过3000 tokens/s的输出速度，较主流GPU云推理快约15倍 [7] 行业巨头与初创公司的战略布局 - 英伟达在GTC 2026正式发布集成Groq LPU架构的推理芯片，其Groq 3 LPX机架方案搭载256个LPU，提供128GB片上SRAM和高达40PB/s的推理加速带宽，该芯片由三星电子代工，预计2026年下半年开始出货 [3] - OpenAI已确定成为英伟达Groq 3 LPU芯片的首批客户，并承诺投入300亿美元采购相关推理算力 [3] - 2025年12月，英伟达斥资200亿美元获得Groq知识产权的非独家授权，并吸纳了其核心工程团队，以弥补GPU在串行推理场景的架构短板 [8][9] - 2026年2月，Cerebras完成10亿美元H轮融资，估值达到230亿美元，并与OpenAI签署了一份高达100亿美元的合同，部署多达750兆瓦的定制AI芯片 [9] - OpenAI推出了首个运行在Cerebras AI加速器上的模型——GPT-5.3-Codex-Spark预览版，支持超过1000 tokens/s的代码生成响应速度 [9] 未来芯片架构与内存层级演进 - 英伟达采取务实路线，将Groq 3 LPU作为独立的推理加速器芯片，与Rubin GPU通过协同设计的架构进行组合，共同构成Vera Rubin平台 [10] - 未来的AI芯片将出现复杂的异构内存层级：底层是负责预填充（prefill）的计算晶圆，中间层是通过3D堆叠提供的大容量SRAM缓存用于高速解码（decode），旁边则通过CoWoS封装着大容量的HBM用于存储海量上下文 [10] - SRAM的回归并非替代HBM，而是推动内存层级走向更精细化分工的多元时代，两者是互补关系 [10][11] - 由于SRAM单元面积是DRAM的5到10倍，每比特成本极高，无法替代HBM作为主内存的角色，存储大模型权重仍需数百GB的HBM或DRAM [11] 对半导体产业链的影响与机遇 - 内存层级的细分可能扩大整个存储市场的总规模，未来数据中心可能需要同时配备用于训练的HBM服务器和用于实时响应的SRAM加速卡 [12] - SRAM直接集成在逻辑芯片内部，其设计与制造完全依赖于顶尖的逻辑制程工艺，这极大地凸显了晶圆代工厂的地位 [12] - 台积电被明确视为主要受益者，因为无论是英伟达采用N3P制程打造下一代LPU，还是其他厂商跟进类似架构，最终都要依赖其先进产线，这不仅意味着更高的晶圆平均销售单价，更巩固了其在AI半导体制造的核心地位 [13] - 中国台湾的存储供应链在SRAM路线中找到了新机会：华邦电的定制化内存业务中的PSRAM被视为成本与性能的折中方案；力积电通过3D AI Foundry策略展现了承接相关代工的潜力；钰创的产品线覆盖符合Groq LPU采用标准的SRAM；爱普则提供在功耗和带宽上实现倍数级提升的新一代ApSRAM [14]