SRAM停止微缩,怎么办?
半导体行业观察·2025-09-17 09:30

核心观点 - 内存技术面临扩展性和信号传输两大工程障碍,传统通过构建大型共享内存池来提升系统性能的方法已不可行 [2][4] - 提出相反路径:将内存分解为与计算单元紧密耦合的小型片,形成计算-内存节点,通过先进的2.5D/3D集成技术提升局部访问效率 [2][5] - 软件需显式管理由近及远的内存层次结构,包括私有本地内存、封装内共享内存和封装外DRAM,以实现数据布局和迁移的高效管理 [2][5][15] 内存技术瓶颈分析 - 二维半导体缩放技术已走到尽头,SRAM和DRAM的每字节成本十余年来停滞不前,导致内存成本在系统总成本中占比日益攀升 [4][7][9] - 信号传输障碍表现为:访问远端内存的成本随距离急剧增加,通过电路板走线访问DRAM的能耗比芯片片内访问高出一个数量级,通过CXL或RDMA访问远程内存的开销更大 [4][5] - 每插槽核心数量的增长已超越或匹配DRAM带宽提升幅度,自2018年以来服务器处理器的单核带宽指标已陷入停滞 [10] 新型集成技术与性能对比 - 更紧密的物理集成可实现更高的引脚密度、更宽的带宽及更低的能耗,集成方式从优到劣依次为:片上集成、混合键合、微凸点、C4焊料凸点 [12][13] - 具体数据对比:片上集成(如SRAM)能耗为5 fJ/bit,带宽达131 TB/s;混合键合(如V-Cache)能耗约600 fJ/bit,带宽2.5 TB/s;微凸点(如HBM)能耗约2,000 fJ/bit,带宽1.2 TB/s;C4焊料凸点(如DDR)能耗约10,000 fJ/bit,带宽0.1 TB/s [13] - HBM3E堆栈通过硅通孔技术实现1024个引脚与更短互连距离,相比DDR5的288个引脚,引脚数量显著差异直接转化为带宽优势 [12] 物理可组合的解耦架构方案 - 架构核心是计算内存节点,通过3D集成技术将计算单元与本地内存堆叠,典型代表是AMD的VCache设计和Milan-X处理器 [5][14] - 内存层次被明确划分:私有本地内存用于节点独占数据,通过微米级距离访问;封装内共享内存(如HBM)用于跨节点共享状态;封装外DRAM用于大型工作集和冷数据的主内存 [2][14][15] - 该方案强调优先提升内存利用率,即使可能导致计算利用率小幅下降,系统关注点从原始容量转向局部性、带宽和能效 [14]