文章核心观点 - 英伟达收购Groq事件引发了关于SRAM与HBM在AI推理时代技术路径的行业辩论,核心在于探讨不同存储技术在AI不同阶段(训练与推理)的适用性及未来共存格局,而非简单的替代关系[1][19] SRAM与HBM的技术特性对比 - SRAM(静态随机存取存储器):速度极快(纳秒级,典型访问延迟约1ns),但容量小(几百MB),集成在处理器核心旁,无需刷新,访问确定性强,形象比喻为“衬衫口袋”[1][9] - HBM(高带宽存储器):本质是3D堆叠的DRAM,容量大(几十GB),带宽极高,但访问延迟较高(典型约100ns),存在物理延迟,形象比喻为“大型仓库”[2] AI训练与推理阶段对存储的不同需求 - AI训练阶段:模型参数巨大(百亿至千亿级),计算强度高,数据复用率高,批处理(Batch Size)大,核心需求是容量第一、带宽第二,对延迟不敏感,是HBM的舒适区[3] - AI推理阶段(特别是实时交互场景):延迟成为生命线,常为单次请求处理(Batch Size = 1),传统GPU依赖HBM频繁加载权重会引入数百纳秒延迟,导致性能剧烈下滑和不可预测性[4][6] Groq的LPU架构与SRAM优势 - 架构核心:完全抛弃HBM作为主存,改用数百MB的片上SRAM存放模型权重,实现权重常驻[9] - 性能数据:片上SRAM访问延迟仅为HBM的几分之一,片上带宽高达80TB/s[9] - 确定性优势:SRAM提供确定性的低延迟(“每次都一样快”),这对自动驾驶、工业控制、金融风控等对延迟波动敏感的关键任务至关重要[14] - 案例表现:在阿贡国家实验室的核聚变反应堆预测任务中,Groq架构在0.6ms内完成19.3万次推理,比NVIDIA A100性能高出600多倍[14] - 并行处理:通过独特的同步计算与通信方法,高效利用指令级、内存级和数据级并行,支持Batch Size = 1的高性能处理,减少等待并提升准确性[10][11] SRAM作为主存的挑战与历史背景 - 历史定位:SRAM长期仅作为缓存使用,过去无人将其作为主内存,原因在于其面积大、成本高、工艺缩放慢[8] - 缩放挑战:在台积电5nm到3nm工艺演进中,逻辑晶体管缩小约1.6倍,而SRAM单元面积仅缩小约5%,导致其在芯片上占用面积比例增大、成本飙升[8] - Groq的逆向思维:利用先进制程下SRAM的高开关速度和确定性,在成熟节点(如14nm/7nm)设计,并计划向4nm/GAA架构演进,利用其改善的读写稳定性[9] 英伟达的视角与战略布局 - 黄仁勋的观点:承认若一切能装入SRAM则无需HBM,但指出这会使模型尺寸缩小约100倍,SRAM存在面积大、成本高的致命伤,让千亿参数大模型完全运行在SRAM上需要成百上千颗芯片,成本与功耗将是天文数字[17] - 强调架构灵活性:面对MoE、多模态、SSM等不断变化的模型,能够灵活切换压力点(NVLink、HBM或计算单元)的架构才是数据中心总拥有成本的最优解,通用性和灵活性是关键[17] - 收购Groq的战略意义:旨在补齐“极致低延迟推理”的拼图,而非全面倒向SRAM,英伟达认为数据中心需要在有限的电力资源下优化整体利用率,而非仅为10%的特定任务进行极致优化[17] - CPX技术的作用:英伟达的CPX(计算与存储解耦/压缩)技术结合GDDR7或HBM,可在某些场景减少对昂贵HBM的依赖,但也会降低数据中心的灵活性[16][18] 行业未来趋势与投资启示 - 技术共存而非替代:“SRAM取代HBM”是伪命题,真正的命题是“AI推理如何实现总拥有成本最优解”[19] - 市场分层化: - 在追求极致速度的边缘侧(如AI眼镜、工业实时控制)和特定高性能推理场景,SRAM将通过ASIC架构蚕食HBM份额[19] - 在大规模数据中心,HBM依然是承载海量模型参数的基石[19] - SSD/NAND将负责模型分发、冷数据与长上下文存储扩展[19] - 投资关注点:投资者应关注存储层级化带来的全面机遇,而非押注单一技术胜负,快(SRAM)有高成本与低密度的代价,慢(HBM)有高带宽与通用性的平衡,两者将在AI推理领域并肩而行[20]
SRAM,取代HBM?