突破“存储墙”,三路并进
台积电台积电(US:TSM) 36氪·2025-12-31 11:35

文章核心观点 AI与高性能计算需求的爆发式增长,正遭遇“存储墙”的核心瓶颈,即存储器带宽、延迟和能效的增长速度严重滞后于计算性能的增长,制约了系统整体潜力[1][4] 行业领导者台积电指出,未来竞争将是内存子系统性能、能效与集成创新的综合较量,并提出了以SRAM、MRAM、存内计算(CIM)为核心,结合3D封装与计算-存储融合的全栈技术演进路径[1][11][62] AI算力需求与存储“带宽墙”挑战 - AI模型参数从百万级跃升至万亿级,过去70年间训练计算量增长超过10^18倍,推理计算量同步爆发式增长[2] - 硬件峰值浮点运算性能(HW FLOPS)在过去20年间增长60000倍(平均每2年增长3.0倍),而DRAM带宽仅增长100倍(平均每2年增长1.6倍),互连带宽仅增长30倍(平均每2年增长1.4倍),增长速度严重失衡形成“带宽墙”[4] - 以英伟达H100 GPU为例,其BF16精度峰值算力达989 TFLOPs,但峰值带宽仅3.35 TB/s,在运算强度不足时系统性能受存储限制,计算资源闲置[7] - AI/HPC对存储器提出三大核心要求:大容量(存储模型参数)、高带宽(解决吞吐瓶颈)、低数据传输能耗(实现绿色计算与边缘部署)[7] 存储技术演进的全链条协同路径 - 行业正从传统以计算为中心的架构加速向以存储为中心的架构转型[7] - 未来存储器架构演进围绕“存储-计算协同”展开:从传统片上缓存,到片上缓存+大容量封装内存储器,再到高带宽低能耗封装内存储器,最终实现存算一体与近存计算[7] - 现代系统采用分层存储架构,从寄存器(延迟约1ns)、SRAM缓存(延迟约10ns)到HBM/DRAM主存,再到SSD,进行性能-成本权衡[9] - 技术突破需材料、工艺、架构、封装的全链条协同优化,而非单点突破[11] SRAM:高速缓存层的性能基石与演进 - SRAM凭借低延迟、高带宽、低功耗、高可靠性及兼容先进CMOS工艺的优势,是寄存器、缓存等关键层的首选技术,广泛应用于数据中心CPU、AI加速器、移动SoC等芯片[12] - SRAM工艺已覆盖N28至N2全节点,随着N3/N2等先进工艺普及,其在高性能计算芯片中的用量持续增长[12] - 随着工艺向7nm、5nm、3nm、2nm演进,SRAM面临面积缩放速度放缓、最小工作电压(VMIN)优化困境、以及互连损耗加剧(Cu线宽<20nm时电阻率快速上升)等挑战[16][17] - 台积电通过设计-工艺协同优化(DTCO)及技术创新推动SRAM缩放,例如:90nm引入应变硅,45nm采用高k金属栅,28nm推出FinFET与飞跨位线,7nm应用EUV光刻,2nm采用Nanosheet架构[13] - 设计层面,台积电推出3D堆叠V-Cache技术以优化末级缓存容量、延迟与带宽,应用于AMD Ryzen 7 5800X3D处理器,集成最高96MB共享L3缓存,游戏性能显著提升[17][20] - 通过写辅助电路、读辅助电路、双轨SRAM等技术,将N3工艺SRAM的VMIN降低超过300mV;通过交错三金属层字线、飞跨位线等技术降低互连损耗[20] - 未来SRAM发展聚焦:1)在N2及更先进节点通过Nanosheet与DTCO提升密度与能效;2)与3D封装结合垂直堆叠以匹配AI加速器超高带宽需求;3)与存算一体架构协同,作为DCiM的核心存储单元[20] 存内计算(CIM):突破能效瓶颈的架构革命 - 在典型AI加速器中,超过90%的能耗用于存储与计算单元间的数据搬运,而非实际计算,数据移动是制约能效的核心因素[21] - 存内计算架构打破冯·诺依曼架构,将计算功能嵌入内存阵列,数据在原地或近旁处理,极大节省能耗和延迟[24] - 台积电认为,数字存内计算(DCiM)相比模拟存内计算(ACiM)更具潜力,因其无精度损失、灵活性强、工艺兼容,能随节点演进持续提升性能,特别适用于边缘推理场景[26] - DCiM核心优势:1)灵活性高,可针对不同AI工作负载配置计算位宽;2)计算密度高,从22nm到3nm,其能效(TOPS/W)和计算密度(TOPS/mm²)实现数量级飞跃;3)精度灵活与能效比高,支持INT8/12/16及FP16精度,精度损失<2.0%,INT8能效比相比传统架构提升约4倍[28] MRAM:非易失性嵌入式存储器的突破 - 传统嵌入式闪存(eFlash)在28nm以下工艺微缩困难,磁阻随机存取存储器(MRAM)凭借低待机功耗、高密度、非易失性、速度快、耐久性和工艺友好等优势,成为理想替代方案[33] - MRAM核心价值在于兼顾高速读写与数据长期保存,满足汽车电子、边缘AI等场景对非易失性、高可靠性和极高耐久性的需求[35] - 在汽车电子领域,台积电N16 FinFET eMRAM技术满足严苛要求:100万次循环耐久性、支持焊料回流、150℃下20年数据保持能力,支撑车载MCU的OTA更新功能[39] - 在边缘AI领域,MRAM支持TinyML等紧凑AI架构,仅需2-4MB容量存储模型权重,同时支持安全OTA更新,匹配其对低容量、高能效与高可靠性的需求[39] - MRAM短板包括:单位容量成本高于DRAM与NAND;高温度下数据保持需优化;强磁场环境(如强永磁体N52)下需保持9mm安全距离等抗干扰挑战[43] - 台积电通过多重技术优化MRAM可靠性:1)数据擦洗技术结合ECC纠错,在125℃下控制位错误率;2)优化MTJ结构与布局以抗磁性干扰;3)针对NVM与RAM不同应用场景调整参数,权衡数据保持、密度与速度[43][47][49] - 台积电已将N16 eMRAM技术成功推向市场,特别是在汽车领域,并正在向更先进节点迈进[49] 计算-存储融合与3D先进封装的系统级优化 - 单一存储技术优化已难以满足系统需求,必须通过3D封装、芯粒集成等技术,将存储与计算单元紧密连接,实现存储靠近计算的架构重构[50] - 2.5D/3D先进封装通过硅中介层或硅桥将计算芯粒与高带宽内存(如HBM)封装在一起,创造带宽极高、距离极近的超级系统,以匹配AI加速器的巨大吞吐需求[54] - 台积电先进封装布局包括:CoWoS平台(将逻辑芯片和HBM集成在硅中介层上)和SoIC技术(允许芯片垂直3D堆叠,实现最短最密集互连)[58] - 高密度互连优势:缩短数据路径,降低数据移动能耗与延迟;提升带宽密度,3D堆叠的比特能效相比封装外铜互连提升60倍;模块化设计灵活适配不同场景,如AI内存带宽需求已达20.0TB/s[58] - 未来AI芯片可能通过3D堆叠将计算单元直接放置在高速缓存或存内计算单元之上,形成紧耦合异构集成体,并结合集成电压调节器、光子互连等技术[60] - 这要求芯片设计、存储器专家、封装工程师从架构设计之初就进行内存-计算协同优化,以突破存储墙与能效瓶颈[61] 行业未来图景与竞争关键 - AI计算正推动存储技术进入全维度创新时代,需应对“带宽墙”与“能效瓶颈”双重挑战[62] - 台积电的技术蓝图路径:以SRAM保障高速访问;以MRAM开拓新场景并填补非易失性存储空白;以DCiM实现存算一体突破能效瓶颈;最终以3D封装与芯粒集成实现系统级融合,重构存储与计算连接[62] - 对产业而言,竞争格局深化,领先企业不仅需掌握尖端制程工艺,更需在存储技术、先进封装和系统架构上构建全方位创新能力,技术的协同与融合成为破局关键[62]

突破“存储墙”,三路并进 - Reportify