AI推理 - 财报，业绩电话会，研报，新闻

AI推理

搜索文档

半导体行业观察· 2026-01-12 09:31

文章核心观点 - 英伟达收购Groq事件引发了关于SRAM与HBM在AI推理时代技术路线的行业辩论，但“SRAM取代HBM”是一个伪命题，真正的核心是AI推理如何实现总拥有成本最优解[1][22] - SRAM的优势在于确定性、极低延迟和能效，适合边缘计算和实时推理场景；HBM的优势在于大容量和高带宽，仍是数据中心承载海量参数的基石；两者将在AI推理领域并存，形成存储层级化机遇[22][23] SRAM与HBM的技术特性对比 - **SRAM（静态随机存取存储器）**：是世界上最快的存储介质之一，访问延迟为1纳秒，但容量小（几百MB），成本高，面积大；如同“衬衫口袋”，伸手即得但空间有限[2][8] - **HBM（高带宽存储器）**：本质是3D堆叠的DRAM，容量大（几十GB），带宽极高，但访问延迟约为100纳秒；如同“大型仓库”，容量大门宽但存在物理延迟[2] - 两者根本区别在于，SRAM的访问延迟比HBM/DRAM“快一个数量级”（1ns vs 100ns），且具有确定性（每次都一样快）[9][16] AI从训练转向推理带来的存储需求变化 - **训练阶段**：模型参数达百亿甚至千亿级，计算强度高，数据复用率高，对容量和带宽需求大，延迟不敏感，是HBM的舒适区[4] - **推理阶段**：特别是在人机交互和实时控制场景，延迟成为生命线，需要处理Batch Size = 1（单次请求）的实时请求[4] - 传统GPU架构依赖HBM，在实时推理场景中频繁加载权重会导致数百纳秒的延迟，造成性能剧烈下滑，为掩盖延迟被迫增大批处理大小（如256个请求一起处理），导致响应不丝滑[4][7] Groq的LPU架构与SRAM技术路线 - **核心设计**：完全抛弃HBM作为主存储，改用数百MB的片上SRAM存放模型权重，访问延迟仅为HBM的几分之一[10] - **性能数据**：片上SRAM带宽高达80TB/s，在阿贡国家实验室的核聚变反应堆预测任务中，于0.6毫秒内完成了19.3万次推理，比NVIDIA A100性能高出600多倍[10][16] - **架构创新**：采用同步计算与通信方法，将计算与内存访问解耦，实现更高的内存级并行性，支持在Batch Size = 1下提供高性能和可预测的低延迟[11][13][14] - **工艺路线**：当前主要采用台积电14nm/7nm，计划走向4nm，在更先进制程下大规模SRAM的读写稳定性更高[9] 英伟达的视角与行业趋势判断 - **黄仁勋的观点**：承认如果一切都能装进SRAM则不需要HBM，但指出这会使模型尺寸缩小约100倍，成本与电力消耗将是天文数字，因此SRAM无法完全替代HBM[19] - **强调灵活性**：数据中心是有限的电力资源，需要能够灵活切换压力点（NVLink、HBM或计算单元）的架构来应对多变的模型（如MoE、多模态、SSM），以实现总拥有成本最优解[19] - **收购意图**：收购Groq旨在补齐“极致低延迟推理”的拼图，而非全面倒向SRAM；同时，英伟达也在研究通过CPX（计算与存储解耦/压缩）技术减少对昂贵HBM的依赖[18][19][20] - **集成度价值**：高度集成的统一架构（如更新一个模型库可提升所有GPU表现）比拥有17种零散专用架构更能优化整体数据中心的总拥有成本[20] 存储层级化与未来机遇 - **推理的重要性**：训练只发生一次，推理会发生数十亿次，如同“造发动机”与“上路开车”的区别，优化推理体验是“用量起点”[22] - **技术分工**：追求极致速度的边缘侧和特定实时推理场景，SRAM通过ASIC架构蚕食HBM份额；大规模数据中心中，HBM仍是基石；SSD/NAND则负责模型分发与长上下文存储[22] - **投资启示**：不应押注单一技术胜负，而应关注存储层级化带来的全面机遇，SRAM与HBM因其不同特性（快但有代价，慢但能平衡）将在AI推理领域并肩而行[23]