SRAM,取代HBM?

文章核心观点 - 英伟达收购Groq事件引发了关于SRAM与HBM在AI推理时代技术路线的行业辩论,但“SRAM取代HBM”是一个伪命题,真正的核心是AI推理如何实现总拥有成本最优解[1][22] - SRAM的优势在于确定性、极低延迟和能效,适合边缘计算和实时推理场景;HBM的优势在于大容量和高带宽,仍是数据中心承载海量参数的基石;两者将在AI推理领域并存,形成存储层级化机遇[22][23] SRAM与HBM的技术特性对比 - SRAM(静态随机存取存储器):是世界上最快的存储介质之一,访问延迟为1纳秒,但容量小(几百MB),成本高,面积大;如同“衬衫口袋”,伸手即得但空间有限[2][8] - HBM(高带宽存储器):本质是3D堆叠的DRAM,容量大(几十GB),带宽极高,但访问延迟约为100纳秒;如同“大型仓库”,容量大门宽但存在物理延迟[2] - 两者根本区别在于,SRAM的访问延迟比HBM/DRAM“快一个数量级”(1ns vs 100ns),且具有确定性(每次都一样快)[9][16] AI从训练转向推理带来的存储需求变化 - 训练阶段:模型参数达百亿甚至千亿级,计算强度高,数据复用率高,对容量和带宽需求大,延迟不敏感,是HBM的舒适区[4] - 推理阶段:特别是在人机交互和实时控制场景,延迟成为生命线,需要处理Batch Size = 1(单次请求)的实时请求[4] - 传统GPU架构依赖HBM,在实时推理场景中频繁加载权重会导致数百纳秒的延迟,造成性能剧烈下滑,为掩盖延迟被迫增大批处理大小(如256个请求一起处理),导致响应不丝滑[4][7] Groq的LPU架构与SRAM技术路线 - 核心设计:完全抛弃HBM作为主存储,改用数百MB的片上SRAM存放模型权重,访问延迟仅为HBM的几分之一[10] - 性能数据:片上SRAM带宽高达80TB/s,在阿贡国家实验室的核聚变反应堆预测任务中,于0.6毫秒内完成了19.3万次推理,比NVIDIA A100性能高出600多倍[10][16] - 架构创新:采用同步计算与通信方法,将计算与内存访问解耦,实现更高的内存级并行性,支持在Batch Size = 1下提供高性能和可预测的低延迟[11][13][14] - 工艺路线:当前主要采用台积电14nm/7nm,计划走向4nm,在更先进制程下大规模SRAM的读写稳定性更高[9] 英伟达的视角与行业趋势判断 - 黄仁勋的观点:承认如果一切都能装进SRAM则不需要HBM,但指出这会使模型尺寸缩小约100倍,成本与电力消耗将是天文数字,因此SRAM无法完全替代HBM[19] - 强调灵活性:数据中心是有限的电力资源,需要能够灵活切换压力点(NVLink、HBM或计算单元)的架构来应对多变的模型(如MoE、多模态、SSM),以实现总拥有成本最优解[19] - 收购意图:收购Groq旨在补齐“极致低延迟推理”的拼图,而非全面倒向SRAM;同时,英伟达也在研究通过CPX(计算与存储解耦/压缩)技术减少对昂贵HBM的依赖[18][19][20] - 集成度价值:高度集成的统一架构(如更新一个模型库可提升所有GPU表现)比拥有17种零散专用架构更能优化整体数据中心的总拥有成本[20] 存储层级化与未来机遇 - 推理的重要性:训练只发生一次,推理会发生数十亿次,如同“造发动机”与“上路开车”的区别,优化推理体验是“用量起点”[22] - 技术分工:追求极致速度的边缘侧和特定实时推理场景,SRAM通过ASIC架构蚕食HBM份额;大规模数据中心中,HBM仍是基石;SSD/NAND则负责模型分发与长上下文存储[22] - 投资启示:不应押注单一技术胜负,而应关注存储层级化带来的全面机遇,SRAM与HBM因其不同特性(快但有代价,慢但能平衡)将在AI推理领域并肩而行[23]