内存计算
搜索文档
SRAM,更难了
半导体行业观察· 2026-03-27 08:52
SRAM微缩困境与内存墙问题 - SRAM是所有计算系统的重要组成部分,但其容量和性能提升几乎停滞,未能跟上逻辑电路的扩展步伐,问题在过去五年中变得更加严重[1] - 自1990年起,内存容量和性能就被识别为未来处理能力发展的关键瓶颈,硬件架构通过使用SRAM作为缓存并辅以片外DRAM来回避,但这导致速度慢得多,形成“内存墙”[1][4] - 随着制程节点缩小,相同容量的SRAM占用芯片面积比例越来越高,制造商被迫更多依赖速度慢得多的外部存储器[4] SRAM微缩停滞的技术根源 - SRAM微缩停滞是因为传统的6T位单元达到了物理极限和工艺偏差极限,其读写需求存在固有冲突,访问晶体管与存储晶体管间的竞争需要仔细平衡[8] - 随着制程节点缩小,静电控制和随机波动成为主要制约因素,阻碍单元面积相应缩小,同时导线电阻和位线电容增加导致SRAM速度达到瓶颈,而供电电压Vdd在最近节点中几乎没有降低[8] - 在先进的2nm及以下制程,SRAM位单元密度提升幅度已降至不足15%,远低于65nm到5nm工艺迭代中经历的50%到100%的逐代缩小幅度[8] - 主要表现为存储器密度扩展速度落后于传统存储器,每平方毫米门数(Gate/mm²)的发展速度超过了每平方毫米兆字节数(MB/mm²),访问速度也因线路延迟和物理定律而受影响[8] 内存墙对计算性能的广泛影响 - 计算机或处理器的性能提升了近五个数量级,但内存带宽甚至没有提升100倍,导致计算机能处理的数据量与输入数据量之间存在超过1000倍的差距[9] - SRAM微缩问题将影响到所有领域,包括小型微控制器和微处理器,尤其是在人工智能向边缘应用发展的过程中,SRAM将占据芯片总面积的更大比例,影响芯片功能实现并推高成本[9] - SRAM扩展速度的放缓正处于系统架构的拐点,当内存密度增长放缓时,简单地增加缓存变得不经济[9] 对软件和人工智能的挑战 - 依赖于海量本地SRAM和多层快速缓存的处理器架构将受到最大影响,软件必须假定内存层次结构更复杂、速度更分散,局部性、分块、分区和流量可预测性变得更加重要[11] - 随着人工智能模型规模和上下文长度增长,内存带宽和片上缓存成为性能瓶颈,在LLM推理中键值缓存带宽尤为明显,软件必须优化数据局部性、内存感知调度、量化、稀疏性和内存分层[11] - 近期人工智能模型的算术强度远低于以往,意味着从内存到处理器的带宽需求更大[12] - 智能AI架构可将内存管理推入离线编译器,调度显式的代码驱动的DMA传输,构建无需数据缓存的推理处理引擎,从而将SRAM设计挑战限制在关键的CPU子模块中[11][12] 3D集成与Chiplet解决方案 - SoC设计人员正在探索解耦方案,将少量关键SRAM(如L1/L2/L3缓存)放置在最先进工艺节点的芯片上,而将更大容量的SRAM(如L4)放置在更早工艺节点的芯片上,以降低成本[13] - 更快的芯片间通信链路和更小的互连间距,使得多存储器层次结构的集成更加容易,从而在合理的延迟影响下降低成本[13] - 基于3D和芯片组的SRAM目前由于封装成本高、散热复杂且标准化程度有限,仅适用于高端AI/HPC芯片[13] - Chiplets提供了一种以更低功耗实现更高带宽的解决方案,是打破性能瓶颈的途径[13] 新兴内存技术与架构演进 - 新兴内存技术如MRAM和ReRAM,可以增强而非取代L1/L2缓存中的高性能SRAM,它们有望取代某些控制器、MCU和加速器中的嵌入式存储器[16] - 内存计算或近内存计算是人工智能的发展方向,意味着传统围绕庞大计算引擎从靠近内存处提取数据的模型将发生变化[15] - 高带宽内存(HBM)显著提升了DRAM带宽,若将其底层芯片的工艺升级为针对逻辑电路优化的工艺,则可以支持更多功能并实现更高性能,例如在HBM基片和GPU之间实现更高带宽的芯片间接口[16][17] - 在SRAM扩展不再自动的时代,架构效率成为关键,通过智能地管理缓存位置和流量行为,可以在不成比例增加SRAM面积的情况下提升内存容量和带宽[17] 行业结论与未来方向 - 内存瓶颈日益凸显,SRAM扩展不太可能重现昔日的辉煌,必须寻找替代方案[18] - 3D堆叠技术可能会变得更加普及,尤其是在价格下降的情况下[18] - 目前没有万全之策,如果高速内存成为计算能力的瓶颈,那么计算就必须更有效地利用现有内存[18]
这一创新,打破内存微缩死局!
半导体芯闻· 2026-01-23 17:38
文章核心观点 人工智能工作负载驱动了内存技术的创新,特别是对低功耗、高密度内存的需求日益增长,这推动了以非晶氧化物半导体(如IGZO)为代表的新材料在DRAM、SRAM替代方案及内存计算等领域的应用探索,旨在解决传统内存的微缩挑战、漏电与功耗问题,并实现与先进CMOS工艺的后端集成[1][11] DRAM技术演进与氧化物半导体的应用 - **人工智能数据中心的需求导致DRAM短缺**,尽管有RRAM等新技术探索,DRAM仍是大多数应用的首选[1] - **DRAM微缩面临挑战**,行业希望通过垂直结构提高密度,并采用低漏电晶体管(如非晶氧化物半导体IGZO)来降低大型存储阵列的刷新功耗[1] - **IGZO材料具有优势**,其极低的漏电流和相对容易、低成本的沉积工艺,使其适用于堆叠器件[1] - **集成工艺存在热稳定性挑战**,例如在DRAM所需的高温下,IGZO退火可能导致锌迁移和氧空位,但通过优化电极材料(如无锌IGO)和工艺,器件在550°C以上仍能保持稳定[2] - **多家公司展示3D DRAM集成方案**:长鑫存储通过优化沉积工艺、减少氢含量、使用抗氧化界面层和改进栅极绝缘层,成功制备出导通电流为60.9 μA/μm、亚阈值摆幅为80 mV/dec的双栅晶体管[3];Kioxia展示了一种3D DRAM氧化物通道替换工艺,其原型单元在45nm栅极长度下实现了超过30μA/单元的高导通电流和优于10^13的开关比[5] 作为SRAM替代方案的增益单元存储器 - **氧化物半导体可用于无电容“增益单元”存储器**,这是一种潜在的SRAM替代方案,利用氧化物半导体的低漏电延长数据保持时间,同时利用硅的速度优势[6] - **混合设计实现性能提升**:斯坦福大学、英伟达和台积电的研究人员构建的256×256阵列,与高密度SRAM相比,密度提高了3.6倍,能耗降低了15%[6] - **自对准设计进一步优化性能**:佐治亚理工学院的研究展示了一种完全自对准的3T0C设计,相比于晶体管重叠的单元,保持性能提高了10倍,有效容量提高了一倍,并将能耗-延迟-面积乘积降低了75%至80%[8] - **尝试提升速度**:日本半导体能源实验室使用晶体氧化铟(非非晶)制造器件,实现了5纳秒的读写速度和超过3600秒(1小时)的数据保持时间[8] 面向内存计算的非易失性存储器 - **内存计算旨在解决内存带宽问题**,但许多基于模拟存储器(如RRAM)的设计存在需要模数转换等局限性[9] - **氧化物半导体助力非易失性电容存储**:佐治亚理工学院与台积电合作,将掺钨氧化铟与铁电氧化铪锆结合,在40nm CMOS工艺上构建了存储元件,实现了超过10^9次的非破坏性读取耐久性和优于10^4秒(2.78小时)的保持时间[9] - **氧化物半导体使FeFET存储器后端集成成为可能**:由于硅的热要求,硅沟道FeFET难以后端集成;三星研究人员采用IGZO作为沟道材料,并通过氧气退火稳定氧空位,最终获得了1.6 V的宽存储窗口,且耐久性超过10^12次循环[9]
AWS买了一家芯片公司
半导体行业观察· 2025-10-11 09:27
公司核心交易与运营变更 - 以色列初创公司NeuroBlade的核心工程团队将加入AWS Annapurna Labs,此举标志着其独立运营的有效结束 [1] - 此次交易是公司发展历程中的重要里程碑,核心团队将在AWS引领下一代产品创新 [1][2] - 交易之外,公司已完成内部组织架构调整,软件和系统团队将专注于新篇章 [2] - NeuroBlade由首席执行官Elad Sity和首席技术官Eliad Hillel于2018年创立,两人曾是SolarEdge的早期员工 [1] - 公司迄今已融资1.1亿美元,投资者包括Corner Ventures、英特尔投资、Grove Ventures等 [1] 公司技术与产品定位 - NeuroBlade开发了一种新颖的数据分析架构,通过将计算直接集成到内存中来消除数据处理瓶颈 [2] - 其技术整合了专有硬件、软件和算法,形成安装在服务器群中的统一系统以加速大规模计算 [2] - 公司开发了专用半导体芯片SQL处理单元(SPU),用于加速SQL指令处理,该芯片插入主机服务器的PCIe总线 [3] - SPU技术可使分析工作负载的作业速度提高100倍或更多,从而降低成本并提高CPU核心使用效率 [3] - 该技术定位为数据分析领域的专用加速器,与x86 CPU用于通用应用、GPU用于AI形成互补,公司目标是成为“数据分析领域的Nvidia” [3][7] 市场合作与商业进展 - NeuroBlade正与所有大型超大规模数据中心运营商洽谈,并已与其中一家运营商签订了数千张SPU卡的合同 [4] - 公司与戴尔达成合作协议,在PowerEdge服务器中分销SPU卡产品 [5] - 公司曾与三星等驱动器制造商以及VAST Data等存储供应商讨论SPU的应用,但当前重点并非存储阵列市场 [6] - 公司首席商务官Lior Genzel Gal拥有丰富的行业经验,其此前所在公司Excelero被英伟达收购 [5] - 超大规模厂商的销售可能涉及数万个CPU,其市场规模远大于存储阵列供应商每年数百或数千的出货量 [6]
芯片初创公司,攻破内存墙
半导体行业观察· 2025-09-03 09:17
文章核心观点 - 人工智能工作负载正从训练转向推理和代理AI,这暴露了传统计算架构在内存带宽和容量上的瓶颈,即“内存墙”问题 [2] - d-Matrix公司致力于通过其创新的3D堆叠数字内存计算架构来解决AI推理的内存瓶颈问题,旨在实现比传统HBM内存更高的带宽和能效,同时降低成本 [2][5] 行业背景与趋势 - 2025年人工智能焦点转向推理和代理AI,对处理能力的需求暴露出内存管道的缺口 [2] - 行业基准显示,计算性能每两年增长约3倍,而内存带宽仅增长约1.6倍,导致处理器因等待数据而闲置的差距日益扩大 [8] - 基于GPU的传统高性能计算架构擅长训练大型语言模型,但并非运行AI推理工作负载的理想选择 [6] d-Matrix公司概况 - 公司由首席执行官Sid Sheth和首席技术官Sudeep Bhoja于2019年创立,两位创始人均曾担任高速互连开发商Inphi Corp的高管,该公司于2020年被Marvell以100亿美元收购 [2] - 公司目标是为AI推理开发内存计算芯片级技术,提供比传统DRAM更大的内存带宽,且成本远低于高带宽内存 [2] 核心技术:3DIMC架构 - 3DIMC指三维堆叠数字内存计算,通过垂直堆叠内存并与计算芯片紧密集成,旨在显著降低延迟、提升带宽并实现新的效率提升 [2][8] - 该技术采用LPDDR5内存,并通过中介层将数字内存计算硬件连接到内存,DIMC引擎使用改进的SRAM单元,在内存阵列内部执行计算 [3] - 其Apollo计算核心包含八个DIMC单元,可并行执行64×64矩阵乘法,支持INT8、INT4和块浮点等多种数值格式 [3] - 公司预计3DIMC将使AI推理工作负载的内存带宽和容量提高几个数量级 [5] 产品演进与性能目标 - 公司现有旗舰产品Corsair采用PCIe Gen5规格,具有150 TB/s的超高内存带宽 [7] - 下一代架构Raptor将融入3DIMC技术,目标是在运行AI推理工作负载时,与未来的HBM4相比,实现10倍内存带宽提升和10倍能效提升 [5][9] - 公司认为这些提升是阶跃式的改进,将重新定义大规模推理的可能性 [5][9] 市场预测与机遇 - 早在2022年底ChatGPT推出前,公司就已预见大型语言模型将催生对更大、更快内存的需求 [5] - 公司联合创始人Sid Sheth在2022年预测,Transformer模型将成为未来5到10年AI计算的主要工作负载,并最终导致AI推理工作负载激增 [6] - 到2025年,从AI训练到AI推理的重大转变正在发生,代理AI预计将在未来几年推动巨额投资 [7]
AMD收购两家公司:一家芯片公司,一家软件公司
半导体行业观察· 2025-06-06 09:12
AMD收购Untether AI - AMD收购AI推理芯片开发商Untether AI的工程师团队,以增强其AI编译器和内核开发能力,以及数字和SoC设计、设计验证和产品集成能力 [1] - 交易后Untether AI将不再提供或支持其speedAI产品和imAIgine软件开发套件 [1] - Untether AI成立于2018年,专注于AI推理领域,其关键差异化优势在于内存计算架构,可解决神经网络计算中90%的能耗来自于数据移动的问题 [6][9] - Untether AI的第二代内存架构speedAI240设备采用台积电7纳米工艺,具有2 petaflops的FP8性能和238 MB的SRAM内存,能效达每瓦30 teraflops [5] - speedAI240设备支持多种数据类型,与BF16相比准确度损失不到0.1%,吞吐量和能效提高四倍 [9] - 该架构具有可扩展性,可从1瓦设备扩展到基础设施级设备,支持PCI-Express卡和chiplet集成 [20] Untether AI技术细节 - speedAI240设备采用第二代内存库,配备1,435个1.35 GHz 7纳米RISC-V处理器核心 [10] - 通过添加各种指令对RISC-V芯片进行改造以适应AI推理需求 [13] - 采用独特的"肩袖"通信设计和高效片上网络(NOC)优化能源效率 [17] - 提供ImAIgine SDK,支持从TensorFlow和PyTorch等框架提取神经网络并自动量化 [22] AMD收购Brium - AMD同期收购软件公司Brium以强化开放AI软件生态系统 [24] - Brium团队在编译器技术、模型执行框架和AI推理优化方面具有专长,将增强AMD AI平台的效率和灵活性 [24] - 此次收购是AMD继收购Silo AI、Nod.ai和Mipsology后又一战略投资,旨在提升开源软件生态系统支持能力 [25] - Brium擅长在模型到达硬件前优化整个推理堆栈,减少对特定硬件配置的依赖 [25] - 该公司在MX FP4和FP6等新精度格式方面的专长将帮助AMD平台更高效处理训练和推理工作负载 [25]
这将是未来的芯片?
半导体行业观察· 2025-04-21 08:58
先进的逻辑技术 - 台积电推出全球最先进的2纳米CMOS逻辑平台N2,采用GAA纳米片晶体管,芯片密度增加1.15倍,速度提升15%,功耗降低30% [4] - 英特尔展示栅极长度6纳米、接触式多晶硅间距45纳米的RibbonFET CMOS晶体管,电子迁移率在硅厚度低于3纳米前不会下降 [6][7] - 台积电展示48纳米栅极间距全功能单片CFET反相器,n型和p型器件均具有74-76mV/V的良好亚阈值斜率 [11][13] - 北京大学团队构建100纳米栅长A-CNT MOSFET,饱和通态电流2.45mA/μm,峰值跨导3.7mS/μm,非本征截止频率302GHz [17][19] 存储器技术 - Kioxia团队开发新型4F2 DRAM,采用GAA IGZO垂直沟道晶体管,导通电流超过15μA/单元,关断电流1aA/单元 [27][29] - IMEC研究发现使用贫铟薄膜和限制工作波形占空比可缓解IGZO TFT阈值电压不稳定性 [33][35] - 台湾大学团队构建具有β-W电极的MFM电容器,与HZO表现出2.9%晶格失配度,实现无疲劳耐久性 [38][40] 内存计算 - 清华大学团队开发首款基于金属氧化物CFET的3D集成芯片,与2D CIM电路相比面积、延迟和能耗分别降低55.1%、24.8%和44.9% [41][43] - 3D FeNAND阵列将模拟CIM密度提高4,000倍,计算效率比2D阵列高1,000倍,MAC运算准确率达87.8% [45][47] 高频和功率器件 - 英特尔在300毫米GaN-on-TRSOI衬底上制造GaN MOSHEMT射频晶体管,截止频率fT=190GHz,fMAX=532GHz [47][49] - 弗吉尼亚理工大学团队构建横向Ga2O3 JFET,击穿电压超过10kV,导通电阻703mΩ·cm2,可在250℃下工作 [51][54] 传感与成像 - 首尔国立大学团队开发集成气体、气压和温度传感的智能多模设备,气体检测准确率97.8% [57][59] - 索尼实现单个芯片同时获取RGB图像和测距信息,采用1.0μm拜耳像素和4.0μm测距像素 [60][61] - 台湾清华大学团队构建双换能间隙CMOS-MEMS CMUT阵列,超声发射效率16.7kPa/V/mm²,接收灵敏度57mV/kPa [65][66] 多元化主题 - 三星通过计算机建模从3,888种硫族化物组合中筛选出18种候选材料用于SOM应用 [70][72] - DeepSim公司开发AI加速的多尺度原子到电路热模拟流程,可在10分钟内完成RISC-V内核纳米级温度预测 [72][73]
这将是未来的芯片?
半导体行业观察· 2025-04-21 08:58
先进的逻辑技术 - 纳米片晶体管和3D互补场效应晶体管(CFET)是延续摩尔定律的关键技术,纳米片架构比FinFET具有更好的静电控制、更高驱动电流和可变宽度,CFET通过堆叠n-FET和p-FET使晶体管密度翻倍[3] - 台积电发布2纳米CMOS逻辑平台(N2),采用GAA纳米片晶体管,芯片密度比3纳米平台(N3)增加1.15倍,速度提升15%同时功耗降低30%,计划2025年下半年量产[3][4] - 英特尔展示栅极长度6纳米、接触式多晶硅间距45纳米的RibbonFET晶体管,电子迁移率在硅厚度低于3纳米前不会下降,研究表明3纳米是RibbonFET的实际缩放极限[8][9] - 台积电构建业界首个48纳米栅极间距的全功能CFET反相器,采用背面接触技术,n型和p型器件均具有74-76mV/V的亚阈值斜率,为未来逻辑技术微缩铺平道路[14][15] 新兴逻辑器件材料 - 北京大学团队采用高密度定向碳纳米管阵列构建100纳米栅长MOSFET,创下2.45mA/μm饱和通态电流和302GHz截止频率的纪录,性能超过硅平面FET[23][25] - 使用钌源漏接触的WSe2 PMOS器件实现156mV/dec亚阈值斜率和132μA/μm漏极电流,展示二维材料在下一代电子器件中的潜力[31][33] 存储器技术突破 - Kioxia团队开发新型4F2 DRAM,采用GAA IGZO垂直沟道晶体管,导通电流超过15μA/单元,关断电流低至1aA/单元,成功构建275Mbit阵列展示高密度潜力[33][35] - IMEC研究发现IGZO TFT阈值电压不稳定性可通过贫铟薄膜和限制工作波形占空比缓解,为未来DRAM可靠性提升提供解决方案[39][41] - 台湾大学团队开发具有β-W电极的金属-铁电-金属电容器,与HZO材料配合实现无疲劳耐久性,为高性能存储器开辟道路[44][45] 内存计算创新 - 清华大学团队开发首款基于金属氧化物CFET的3D集成芯片,包含Si-CMOS逻辑层、RRAM层和OS-CFET层,与2D方案相比面积减少55.1%,延迟降低24.8%,能耗下降44.9%[48][50] - 3D FeNAND阵列将模拟内存计算密度提升4000倍,计算效率比2D阵列高1000倍,在边缘计算应用中实现87.8%准确率的乘法累加运算[50][52] 高频与功率器件 - 英特尔在300毫米GaN-on-TRSOI衬底上制造高性能GaN MOSHEMT晶体管,实现190GHz截止频率和532GHz最大振荡频率,推动6G通信发展[54][56] - 弗吉尼亚理工大学团队开发横向Ga2O3结栅场效应晶体管,击穿电压超过10kV,导通电阻低至703mΩ·cm2,首次展示250℃工作和3kV可靠性数据[58][59] 传感与成像技术 - 首尔国立大学开发集成气体、气压和温度传感的智能多模设备,利用内存计算实现97.8%气体检测准确率[65][67] - 索尼实现单芯片集成RGB像素和近红外测距像素,采用1.0μm拜耳像素和4.0μm测距像素,无视差获取高分辨率图像和深度信息[68][69] - 台湾清华大学团队开发双换能间隙CMOS-MEMS CMUT阵列,实现16.7kPa/V/mm²超声发射效率和57mV/kPa接收灵敏度[73][74] 研发方法创新 - 三星通过计算机建模从3888种硫族化物组合中筛选18种候选材料,加速仅选择器存储器技术开发[78][79] - DeepSim公司开发AI加速的多尺度热模拟流程,可在10分钟内完成从原子到电路级别的温度预测,解决2D/3D IC热管理挑战[81][82]