AI的Memory时刻7：SRAM提升AI推理速度

报告行业投资评级 - 报告未明确给出对“AI Memory”或半导体行业的整体投资评级，但重点覆盖的六家A股公司（澜起科技、兆易创新、中微公司、拓荆科技、北方华创、京仪装备）均被给予“买入”评级 [4] 报告的核心观点 - 核心观点：AI 的 Memory 时刻，AI 记忆持续扩展模型能力边界，AI Agent 等应用加速落地，AI 记忆相关上游基础设施的价值量和重要性将不断提升 [3] - 技术路径：SRAM（静态随机存取存储器）作为片上高带宽存储层，能够显著提升 AI 推理速度，其架构正进入主流视野 [3][7] - 产业动态：行业巨头（如英伟达、OpenAI）通过巨额投资与合作（如授权、融资、采购合同）积极布局 SRAM 技术路径，标志着该技术获得重要产业认可 [3] 根据相关目录分别进行总结一、SRAM 是片上高带宽存储层 - 存储层级定位：在存储分级（SRAM、HBM、DRAM、SSD）中，SRAM 是集成在 CPU、GPU 计算核心附近的片上存储 [3] - 性能特点：具备纳秒级访问时延与高度确定性的带宽特性，带宽高但容量小、成本高 [3] 二、SRAM 可提升 AI 推理速度 - 性能优势：相比依赖外置 HBM，SRAM 可显著降低大模型推理中权重与激活数据的访问延迟与抖动，从而改善首次令牌生成时间（Time-to-First-Token）与尾时延表现 [3] - 企业案例 - Groq： - 其 LPU 单芯片内集成约 230MB 片上 SRAM，存储带宽高达 80 TB/s（对比 GPU 片外 HBM 内存带宽约为 8 TB/s）[3] - 在 Llama3.3 70B 模型测试中，Groq LPU 芯片在不同上下文长度下均能维持稳定推理速度，达 275-276 token/s，显著优于其他推理平台 [3] - 企业案例 - Cerebras： - 其晶圆级引擎 3（WSE-3）芯片集成 44GB SRAM，片上存储带宽达 21 PB/s[3] - 在 OpenAI GPT OSS 120B 推理任务中实现 >3000 tokens/s 的输出速度，较主流 GPU 云推理快约 15倍[3] - 运行于其上的 GPT-5.3-Codex-Spark 预览版支持 >1000 tokens/s 的代码生成响应速度 [3] 三、SRAM 架构进入主流视野 - 英伟达与 Groq 合作：2025年12月，英伟达斥资 200亿美元 获得 Groq 知识产权的非独家授权，包括其语言处理单元（LPU）和配套软件库，并引入 Groq 核心工程团队 [3] - Cerebras 获资本与产业青睐： - 2026年2月，Cerebras 宣布完成 10亿美元 F 轮融资，估值达 230亿美元[3] - OpenAI 与 Cerebras 签署 100亿美元 合同，计划部署多达 750兆瓦 的定制 AI 芯片 [3] 四、投资建议 - 投资逻辑：AI 记忆相关上游基础设施（如 SRAM 及相关产业链）的价值量和重要性将不断提升 [3][39] - 具体建议：建议关注产业链核心受益标的 [3][39] - 重点覆盖公司：报告列出了六家A股半导体公司并给予“买入”评级，包括澜起科技、兆易创新、中微公司、拓荆科技、北方华创、京仪装备 [4]