SRAM，更难了 - Reportify

SRAM微缩困境与内存墙问题 - SRAM是所有计算系统的重要组成部分，但其容量和性能提升几乎停滞，未能跟上逻辑电路的扩展步伐，问题在过去五年中变得更加严重[1] - 自1990年起，内存容量和性能就被识别为未来处理能力发展的关键瓶颈，硬件架构通过使用SRAM作为缓存并辅以片外DRAM来回避，但这导致速度慢得多，形成“内存墙”[1][4] - 随着制程节点缩小，相同容量的SRAM占用芯片面积比例越来越高，制造商被迫更多依赖速度慢得多的外部存储器[4] SRAM微缩停滞的技术根源 - SRAM微缩停滞是因为传统的6T位单元达到了物理极限和工艺偏差极限，其读写需求存在固有冲突，访问晶体管与存储晶体管间的竞争需要仔细平衡[8] - 随着制程节点缩小，静电控制和随机波动成为主要制约因素，阻碍单元面积相应缩小，同时导线电阻和位线电容增加导致SRAM速度达到瓶颈，而供电电压Vdd在最近节点中几乎没有降低[8] - 在先进的2nm及以下制程，SRAM位单元密度提升幅度已降至不足15%，远低于65nm到5nm工艺迭代中经历的50%到100%的逐代缩小幅度[8] - 主要表现为存储器密度扩展速度落后于传统存储器，每平方毫米门数(Gate/mm²)的发展速度超过了每平方毫米兆字节数(MB/mm²)，访问速度也因线路延迟和物理定律而受影响[8] 内存墙对计算性能的广泛影响 - 计算机或处理器的性能提升了近五个数量级，但内存带宽甚至没有提升100倍，导致计算机能处理的数据量与输入数据量之间存在超过1000倍的差距[9] - SRAM微缩问题将影响到所有领域，包括小型微控制器和微处理器，尤其是在人工智能向边缘应用发展的过程中，SRAM将占据芯片总面积的更大比例，影响芯片功能实现并推高成本[9] - SRAM扩展速度的放缓正处于系统架构的拐点，当内存密度增长放缓时，简单地增加缓存变得不经济[9] 对软件和人工智能的挑战 - 依赖于海量本地SRAM和多层快速缓存的处理器架构将受到最大影响，软件必须假定内存层次结构更复杂、速度更分散，局部性、分块、分区和流量可预测性变得更加重要[11] - 随着人工智能模型规模和上下文长度增长，内存带宽和片上缓存成为性能瓶颈，在LLM推理中键值缓存带宽尤为明显，软件必须优化数据局部性、内存感知调度、量化、稀疏性和内存分层[11] - 近期人工智能模型的算术强度远低于以往，意味着从内存到处理器的带宽需求更大[12] - 智能AI架构可将内存管理推入离线编译器，调度显式的代码驱动的DMA传输，构建无需数据缓存的推理处理引擎，从而将SRAM设计挑战限制在关键的CPU子模块中[11][12] 3D集成与Chiplet解决方案 - SoC设计人员正在探索解耦方案，将少量关键SRAM（如L1/L2/L3缓存）放置在最先进工艺节点的芯片上，而将更大容量的SRAM（如L4）放置在更早工艺节点的芯片上，以降低成本[13] - 更快的芯片间通信链路和更小的互连间距，使得多存储器层次结构的集成更加容易，从而在合理的延迟影响下降低成本[13] - 基于3D和芯片组的SRAM目前由于封装成本高、散热复杂且标准化程度有限，仅适用于高端AI/HPC芯片[13] - Chiplets提供了一种以更低功耗实现更高带宽的解决方案，是打破性能瓶颈的途径[13] 新兴内存技术与架构演进 - 新兴内存技术如MRAM和ReRAM，可以增强而非取代L1/L2缓存中的高性能SRAM，它们有望取代某些控制器、MCU和加速器中的嵌入式存储器[16] - 内存计算或近内存计算是人工智能的发展方向，意味着传统围绕庞大计算引擎从靠近内存处提取数据的模型将发生变化[15] - 高带宽内存(HBM)显著提升了DRAM带宽，若将其底层芯片的工艺升级为针对逻辑电路优化的工艺，则可以支持更多功能并实现更高性能，例如在HBM基片和GPU之间实现更高带宽的芯片间接口[16][17] - 在SRAM扩展不再自动的时代，架构效率成为关键，通过智能地管理缓存位置和流量行为，可以在不成比例增加SRAM面积的情况下提升内存容量和带宽[17] 行业结论与未来方向 - 内存瓶颈日益凸显，SRAM扩展不太可能重现昔日的辉煌，必须寻找替代方案[18] - 3D堆叠技术可能会变得更加普及，尤其是在价格下降的情况下[18] - 目前没有万全之策，如果高速内存成为计算能力的瓶颈，那么计算就必须更有效地利用现有内存[18]