Workflow
混合铁电隧道结(FTJ)
icon
搜索文档
存内计算芯片,热度大增
半导体行业观察· 2025-10-26 11:16
边缘AI的挑战与内存瓶颈 - 边缘AI应用(如自动驾驶、医疗、工业)因需实时响应和数据隐私,更适合在本地运行小型模型,而非依赖数据中心的大型模型[3] - 边缘设备计算资源有限,无法拥有TB级内存或无限计算能力,这与数据中心形成鲜明对比[3] - 在典型移动工作负载中,数据在内存中的移动占总能耗的62%,内存是硬件资源的最大消耗者,且内存延迟是执行时间的最大贡献者[3] - 器件规模扩大使DRAM稳定性变差,需更频繁刷新周期,且大型内存阵列访问难度增加,因带宽增长不及内存条本身增长[3] 内存/近内存计算解决方案 - 商用现成DRAM在软件基础设施支持下,可执行原始数据复制、初始化和按位逻辑运算,作为近内存计算的解决方案[4] - 内存计算不仅能提高传统神经网络能效,还可促进其他建模方法发展,如将计算难题建模为伊辛玻璃问题[10] 神经网络训练与推理的内存需求 - 神经网络训练任务涉及对权重矩阵多次小幅更新,需要高写入耐久性和精确值存储能力的内存[5] - 推理任务使用稳定不变的权重矩阵,但可能多次应用于输入数据,需要高读取耐久性的非易失性存储器[5] - 近内存计算设备需与标准CMOS逻辑工艺兼容[5] RRAM与铁电体技术特性 - RRAM依靠氧化层中形成的导电细丝实现极高读取耐久性,通过精心设计编程方案可存储模拟值以减小存储器阵列大小,技术已成熟到可在边缘推理场景商业部署[5] - RRAM写入耐久性相对较低,编程脉冲会随时间模糊存储值间电阻差异,设计人员通常用传统硬件训练模型后预加载权重到RRAM阵列[6] - 铁电电容器支持快速开关和极高写入耐久性,可承受训练任务的频繁写入,但读取操作具有破坏性,不适合长期存储权重矩阵或频繁读取的推理任务[6] - 铁电晶体管集成到CMOS工艺复杂,需高温工艺和额外掩模层,而铁电电容器和隧道结更简单,促使多个研究小组将RRAM与铁电结构结合[6] 混合内存技术进展 - SK海力士展示混合铁电隧道结(FTJ),将铁电铪锆氧化物层夹在电极间,钽层作氧空位储存器,实现精确模拟乘法累加运算,效率达每瓦224.4万亿次运算(TOPS/W)[7] - CEA-Leti团队将掺杂硅的HfO2电容器与钛氧清除层结合到标准CMOS后道工艺,器件可表现为铁电电容器或经成型形成导电细丝的忆阻器[7] - 混合结构中,铁电电容器存储用于训练计算的高精度二进制权重,忆阻器存储推理任务所需的模拟权重,训练数字识别任务时写入操作总数比忆阻器耐久性小17倍,比铁电电容器耐久性小75倍,能耗比持续更新忆阻器阵列低38倍[9] 替代计算模型与硬件设计 - 伊辛玻璃问题涉及数千至数百万连接,是量子计算潜在应用,传统方法如德州大学研究员提出三维结构,将FeFET融入CMOS后道工艺,节点由四个交叉耦合FeFET存储有符号模拟值,映射到伊辛耦合矩阵[11] - 近内存和内存加速器与任务紧密耦合,伊辛玻璃求解器、点云网络等需要不同硬件设计,下一步需软件框架重新映射内存访问以满足特定问题要求,并需能独立于外部内存控制器自我管理的内存硬件[13]