纪要涉及的行业和公司 - 行业:人工智能、模拟内存计算、芯片制造、内存技术 [6][18] - 公司:Google、IBM、Samsung、Mythic [8] 纪要提到的核心观点和论据 人工智能现状与挑战 - 现状:人工智能是生活中不可或缺的一部分,其工作负载涵盖数据中心到物联网系统 [6] - 挑战:高性能系统面临模型尺寸增大、吞吐量和服务质量要求严格且需合理能源消耗的问题;物联网设备受电池寿命、面积和成本限制 [6] 近期AI加速器情况 - 加速器众多:有众多DNN加速器,部分仅针对推理,包括行业领导者和初创公司的解决方案 [9] - 举例:Google TPUv4i(2020,7nm)、IBM AIU(2022,5nm)、Samsung ISSCC(2021,5nm)、Mythic ISSCC(2022,40nm) [8] 数据访问与计算操作成本对比 - 观点:数据访问比计算操作(加法、乘法)成本高几个数量级,在更先进的节点也是如此 [14] 内存计算概念 - 概念解释:内存计算、计算内存(CIM)、内存处理(PIM)都指在内存子系统或加速器内直接执行计算任务,关键是减少内存和处理单元之间的数据移动 [17] - 实现方式:可在缓存子系统、DRAM、SSD、带内存的加速器中实现 [17] 模拟内存计算加速AI的优势 - 与数字加速器对比:数字加速器使用片上(和片外)内存存储激活值和权重;模拟内存计算将权重内存和MAC处理并置,减少数据传输,增加AIMC操作的并行性(>0.1M) [21] 构建AIMC硬件的挑战 - 推理精度:要实现并长期保持精度,模拟计算和低精度数字操作存在不准确性,如处理部分和、缩放/偏移操作 [27] - 端到端推理性能和能量增益:要在系统规模上充分利用AIMC瓦片的延迟和能量增益 [26] 不同内存技术特点 | 类型 | 技术 | 优点 | 挑战 | | --- | --- | --- | --- | | 易失性 | SRAM | 可在最新CMOS技术中制造,可靠、可大规模集成 | 单元大,二进制数据存储能力有限 | | | NOR Flash | 密度增加,可并行电流累积 | 可扩展性有限,编程和擦除电压高 | | | 3D NAND Flash | 超高密度,编程分布紧密 | 耐久性有限,编程和擦除电压高 | | 非易失性 | PCM | 模拟数据存储 | 时间漂移,RESET电流高 | | | RRAM | 模拟数据存储,单元结构简单 | 时间漂移,细丝随机性,形成步骤电压高 | | | MRAM | 耐久性无限 | 二进制数据存储,内存窗口小 | [40] SRAM-based AIMC趋势 - 传统6T - SRAM问题:同时启用多个字线时信号裕量降低,为此提出各种SRAM单元以克服读取干扰 [43] - 面积和能量效率:随技术节点变化而缩放 [43] NVM-based AIMC特点 - 优势:提供更高密度的内存阵列,新兴内存技术可通过后端集成制造 [58] - 不足:内存技术和制造不够成熟 [58] 推理所需的单元特性 - 模拟数据存储能力、大开关窗口、低位线电流、低阵列内和阵列间变异性、低读取噪声、低电阻漂移系数和均匀的电阻相关漂移变异性、低温度依赖性和均匀的电阻相关温度响应、长期保留、高阵列内和阵列间良率、适度的耐久性和编程速度 [86] AIMC瓦片设计参数及相关问题 - 输入编码:不同输入编码方式有不同的延迟、功耗和对输入电压的要求 [120] - MAC实现:有单向或双向电流流两种方式,双向电流流需评估器件的双极不对称性,访问器件应允许双向电流流 [123] - ADC架构:不同ADC架构在转换周期、比较次数和多路复用适用性上有差异 [127] - 输出后处理:需要轻量级数字逻辑来最小化不匹配、减去ADC输出、移位部分转换和缩放输出数据,且输出后处理块的间距应与内存交叉开关/ADC块间距匹配 [141][144] 加速器架构和映射问题 - 映射效率:以AIMC瓦片大小为512x512为例,MVM映射效率为67.5%,完整BERT - Base模型映射效率为71% [150] - 能量效率:端到端模型推理无法维持峰值能量效率,受映射效率、辅助操作、数据流和通信开销、内存访问等因素影响 [156] 模拟内存计算原型 | 类型 | CMOS技术 | AIMC设备 | 芯片面积 | 瓦片数量 | 权重容量 | 输入/权重精度 | 峰值TOPs/s | 峰值TOPs/s/W | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | SRAM AIMC加速器 | 16nm | 电容式SRAM | 25mm² | 16(1152x256) | 1.2M(4bits) | 1 - 8 bits | 11.8 TOPs/s(4b/4b in/w) | 121 TOPs/s/W(4b/4b in/w) | | NOR - Flash AIMC加速器 | 40nm | NOR Flash | 190mm² | 76(1024x2048) | 79.7M(模拟) | 8 bits/模拟 | 16.6 TOPs/s(8b/模拟 in/w) | 5.2 TOPs/s/W(8b/模拟 in/w),3.3 TOPs/s/W(8b/模拟 in/w) | | PCM多瓦片宏 | 14nm | PCM | 144mm² | 64(256x256) | 4.2M | 8 bits/模拟 | 16.1/63.1 TOPs/s(8b/模拟 in/w) | 9.76/2.48 TOPs/s/W(8b/模拟 in/w) | [166][170][173] 混合精度加速和软件栈开发 - 混合精度加速:具有模拟瓦片和混合精度数字单元的异构加速器可满足DNN推理的精度、灵活性、延迟、吞吐量、面积和能量要求,但需要在计算映射到异构架构方面进行算法探索 [177] - 软件栈开发:软件栈对深度学习硬件加速器至关重要,确保无缝集成、优化和高效执行神经网络模型,各阶段需进行模拟感知优化 [178] 其他重要但是可能被忽略的内容 - 训练与推理对比:推理仅涉及前向传播,训练涉及前向传播、反向传播和权重更新,训练任务更具挑战性,AIMC瓦片训练需两组DACs/ADCs或可配置连接,训练比推理有更严格的精度要求和更大的内存占用 [35][36][38] - 校准技术:全局校准方案可简单缓解时间和温度相关的电导变化,但无法纠正与电导相关的行为;芯片在环微调可通过在芯片上直接测量误差来减轻精度损失,但会增加芯片特定的部署时间 [104][107] - 多设备单元单元:一个权重可由多个同等重要的设备编码,单个设备的误差在其总电导平均时方差更低 [110] - 模拟感知训练:可在部署前确定权重,使其对一般非理想情况具有鲁棒性,且这种硬件感知训练仅需以芯片无关的方式进行一次 [113]
TUT5_Synapses_Boybat_FINAL
2025-04-02 22:06