突破“存储墙”，三路并进

文章核心观点 AI与高性能计算需求的爆发式增长，正遭遇“存储墙”的核心瓶颈，即存储器带宽、延迟和能效的增长速度严重滞后于计算性能的增长，制约了系统整体潜力[1][4] 行业领导者台积电指出，未来竞争将是内存子系统性能、能效与集成创新的综合较量，并提出了以SRAM、MRAM、存内计算（CIM）为核心，结合3D封装与计算-存储融合的全栈技术演进路径[1][11][62] AI算力需求与存储“带宽墙”挑战 - AI模型参数从百万级跃升至万亿级，过去70年间训练计算量增长超过10^18倍，推理计算量同步爆发式增长[2] - 硬件峰值浮点运算性能（HW FLOPS）在过去20年间增长60000倍（平均每2年增长3.0倍），而DRAM带宽仅增长100倍（平均每2年增长1.6倍），互连带宽仅增长30倍（平均每2年增长1.4倍），增长速度严重失衡形成“带宽墙”[4] - 以英伟达H100 GPU为例，其BF16精度峰值算力达989 TFLOPs，但峰值带宽仅3.35 TB/s，在运算强度不足时系统性能受存储限制，计算资源闲置[7] - AI/HPC对存储器提出三大核心要求：大容量（存储模型参数）、高带宽（解决吞吐瓶颈）、低数据传输能耗（实现绿色计算与边缘部署）[7] 存储技术演进的全链条协同路径 - 行业正从传统以计算为中心的架构加速向以存储为中心的架构转型[7] - 未来存储器架构演进围绕“存储-计算协同”展开：从传统片上缓存，到片上缓存+大容量封装内存储器，再到高带宽低能耗封装内存储器，最终实现存算一体与近存计算[7] - 现代系统采用分层存储架构，从寄存器（延迟约1ns）、SRAM缓存（延迟约10ns）到HBM/DRAM主存，再到SSD，进行性能-成本权衡[9] - 技术突破需材料、工艺、架构、封装的全链条协同优化，而非单点突破[11] SRAM：高速缓存层的性能基石与演进 - SRAM凭借低延迟、高带宽、低功耗、高可靠性及兼容先进CMOS工艺的优势，是寄存器、缓存等关键层的首选技术，广泛应用于数据中心CPU、AI加速器、移动SoC等芯片[12] - SRAM工艺已覆盖N28至N2全节点，随着N3/N2等先进工艺普及，其在高性能计算芯片中的用量持续增长[12] - 随着工艺向7nm、5nm、3nm、2nm演进，SRAM面临面积缩放速度放缓、最小工作电压（VMIN）优化困境、以及互连损耗加剧（Cu线宽<20nm时电阻率快速上升）等挑战[16][17] - 台积电通过设计-工艺协同优化（DTCO）及技术创新推动SRAM缩放，例如：90nm引入应变硅，45nm采用高k金属栅，28nm推出FinFET与飞跨位线，7nm应用EUV光刻，2nm采用Nanosheet架构[13] - 设计层面，台积电推出3D堆叠V-Cache技术以优化末级缓存容量、延迟与带宽，应用于AMD Ryzen 7 5800X3D处理器，集成最高96MB共享L3缓存，游戏性能显著提升[17][20] - 通过写辅助电路、读辅助电路、双轨SRAM等技术，将N3工艺SRAM的VMIN降低超过300mV；通过交错三金属层字线、飞跨位线等技术降低互连损耗[20] - 未来SRAM发展聚焦：1）在N2及更先进节点通过Nanosheet与DTCO提升密度与能效；2）与3D封装结合垂直堆叠以匹配AI加速器超高带宽需求；3）与存算一体架构协同，作为DCiM的核心存储单元[20] 存内计算（CIM）：突破能效瓶颈的架构革命 - 在典型AI加速器中，超过90%的能耗用于存储与计算单元间的数据搬运，而非实际计算，数据移动是制约能效的核心因素[21] - 存内计算架构打破冯·诺依曼架构，将计算功能嵌入内存阵列，数据在原地或近旁处理，极大节省能耗和延迟[24] - 台积电认为，数字存内计算（DCiM）相比模拟存内计算（ACiM）更具潜力，因其无精度损失、灵活性强、工艺兼容，能随节点演进持续提升性能，特别适用于边缘推理场景[26] - DCiM核心优势：1）灵活性高，可针对不同AI工作负载配置计算位宽；2）计算密度高，从22nm到3nm，其能效（TOPS/W）和计算密度（TOPS/mm²）实现数量级飞跃；3）精度灵活与能效比高，支持INT8/12/16及FP16精度，精度损失<2.0%，INT8能效比相比传统架构提升约4倍[28] MRAM：非易失性嵌入式存储器的突破 - 传统嵌入式闪存（eFlash）在28nm以下工艺微缩困难，磁阻随机存取存储器（MRAM）凭借低待机功耗、高密度、非易失性、速度快、耐久性和工艺友好等优势，成为理想替代方案[33] - MRAM核心价值在于兼顾高速读写与数据长期保存，满足汽车电子、边缘AI等场景对非易失性、高可靠性和极高耐久性的需求[35] - 在汽车电子领域，台积电N16 FinFET eMRAM技术满足严苛要求：100万次循环耐久性、支持焊料回流、150℃下20年数据保持能力，支撑车载MCU的OTA更新功能[39] - 在边缘AI领域，MRAM支持TinyML等紧凑AI架构，仅需2-4MB容量存储模型权重，同时支持安全OTA更新，匹配其对低容量、高能效与高可靠性的需求[39] - MRAM短板包括：单位容量成本高于DRAM与NAND；高温度下数据保持需优化；强磁场环境（如强永磁体N52）下需保持9mm安全距离等抗干扰挑战[43] - 台积电通过多重技术优化MRAM可靠性：1）数据擦洗技术结合ECC纠错，在125℃下控制位错误率；2）优化MTJ结构与布局以抗磁性干扰；3）针对NVM与RAM不同应用场景调整参数，权衡数据保持、密度与速度[43][47][49] - 台积电已将N16 eMRAM技术成功推向市场，特别是在汽车领域，并正在向更先进节点迈进[49] 计算-存储融合与3D先进封装的系统级优化 - 单一存储技术优化已难以满足系统需求，必须通过3D封装、芯粒集成等技术，将存储与计算单元紧密连接，实现存储靠近计算的架构重构[50] - 2.5D/3D先进封装通过硅中介层或硅桥将计算芯粒与高带宽内存（如HBM）封装在一起，创造带宽极高、距离极近的超级系统，以匹配AI加速器的巨大吞吐需求[54] - 台积电先进封装布局包括：CoWoS平台（将逻辑芯片和HBM集成在硅中介层上）和SoIC技术（允许芯片垂直3D堆叠，实现最短最密集互连）[58] - 高密度互连优势：缩短数据路径，降低数据移动能耗与延迟；提升带宽密度，3D堆叠的比特能效相比封装外铜互连提升60倍；模块化设计灵活适配不同场景，如AI内存带宽需求已达20.0TB/s[58] - 未来AI芯片可能通过3D堆叠将计算单元直接放置在高速缓存或存内计算单元之上，形成紧耦合异构集成体，并结合集成电压调节器、光子互连等技术[60] - 这要求芯片设计、存储器专家、封装工程师从架构设计之初就进行内存-计算协同优化，以突破存储墙与能效瓶颈[61] 行业未来图景与竞争关键 - AI计算正推动存储技术进入全维度创新时代，需应对“带宽墙”与“能效瓶颈”双重挑战[62] - 台积电的技术蓝图路径：以SRAM保障高速访问；以MRAM开拓新场景并填补非易失性存储空白；以DCiM实现存算一体突破能效瓶颈；最终以3D封装与芯粒集成实现系统级融合，重构存储与计算连接[62] - 对产业而言，竞争格局深化，领先企业不仅需掌握尖端制程工艺，更需在存储技术、先进封装和系统架构上构建全方位创新能力，技术的协同与融合成为破局关键[62]