Workflow
Memory Wall
icon
搜索文档
烦人的内存墙
半导体行业观察· 2026-02-02 09:33
文章核心观点 - 人工智能模型,特别是大型语言模型(LLM)的训练和服务,正面临日益严重的“内存墙”瓶颈,其制约已超过计算能力本身[2][4] - 过去20年,服务器硬件峰值计算能力(FLOPS)增长6万倍,远超DRAM带宽(增长100倍)和互连带宽(增长30倍)的增速,导致内存成为主要性能瓶颈[8][10] - 解码器架构的Transformer模型(如GPT)因自回归推理特性,其内存操作量更大、算术强度更低,使得内存带宽瓶颈尤为突出[17] - 为应对挑战,需要在模型架构设计、训练算法、部署策略以及硬件设计等多个层面进行系统性重新思考和创新[18][31] 硬件性能增长趋势与“内存墙”问题 - 过去20年间,服务器硬件的峰值浮点运算能力(FLOPS)以每两年3.0倍的速度增长,而DRAM带宽和互连带宽的增速分别仅为每两年1.6倍和1.4倍[10] - 自1998年以来,服务器级AI硬件的峰值计算能力增长了6万倍,而DRAM峰值带宽仅增长100倍,互连带宽仅增长30倍,差距巨大[8] - “内存墙”问题涉及内存容量、带宽及延迟的限制,涵盖芯片内、芯片与DRAM间以及多处理器间的数据传输,其改进速度均落后于计算能力增长[6][8] - 内存带宽瓶颈不仅存在于单芯片内部,在分布式训练/服务中,加速器间的网络通信带宽也是更慢、效率更低的瓶颈[9] 大型语言模型(LLM)的发展趋势与挑战 - 2018年至2022年间,训练LLM所需的计算量(FLOPs)以每两年750倍的速度激增,而模型参数规模以每两年410倍的速度增长[4][9] - 模型规模的扩展速度(410倍/两年)已超过单个芯片的可用内存容量,迫使采用分布式内存并行,但面临更严峻的通信带宽挑战[9] - 即使模型能装入单芯片,芯片内部不同层级内存(如寄存器、缓存、全局内存)间的数据传输也日益成为保持计算单元利用率的关键瓶颈[10] Transformer模型案例研究:编码器 vs. 解码器 - 编码器模型(如BERT)并发处理所有token,涉及矩阵-矩阵运算;解码器模型(如GPT)以自回归方式运行,涉及重复的矩阵-向量乘法[13] - 算术强度(每字节内存操作可执行的FLOP数)是衡量性能瓶颈的关键指标,解码器模型因矩阵-向量运算而具有更低的算术强度[14][16] - 性能分析显示,在模型配置和总FLOPs相近的情况下,GPT-2的推理延迟显著高于BERT-Base,这归因于其更高的内存操作量和更低的算术强度[17] - 该案例清楚地表明,对于解码器模型(尤其是在小批量大小下),内存带宽而非计算能力是主要瓶颈[17] 突破内存瓶颈的潜在解决方案:模型与算法创新 - 需要重新思考人工智能模型的设计,当前基于简单扩展规则(如缩放基础Transformer架构)的方法效率有限[18] - 开发更高效的训练算法,如对超参数调优更具鲁棒性的二阶随机优化方法,但需解决其内存占用是其他方法3-4倍的问题[22] - 采用重物化(激活检查点)技术,通过增加约20%的计算量,可减少高达5倍的内存占用,使单芯片训练更大模型成为可能[23] - 设计对低精度训练鲁棒的算法,例如混合使用FP8、FP16甚至FP4精度,以更高效利用硬件并腾出芯片资源改善内存性能[24] 突破内存瓶颈的潜在解决方案:部署与硬件 - 通过量化、剪枝或设计小型语言模型来压缩模型,以利于高效部署[25] - 量化可将推理精度降至INT4,使模型占用空间和延迟最多降低8倍,但使用更低精度(如低于INT4)仍是挑战[27] - 剪枝可移除冗余参数,现有方法可剪枝高达30%的结构化稀疏神经元或高达80%的非结构化稀疏神经元,且对精度影响极小[27] - 小型语言模型若能完全集成到芯片上,可带来数个数量级的速度提升和能耗降低,是推动AI广泛应用的新方向[28] - 重新思考AI加速器设计,在峰值计算能力和内存带宽间寻求更好权衡,例如采用更高效的缓存层次结构和更高容量的DRAM[29]
AI memory is sold out, causing an unprecedented surge in prices
CNBC· 2026-01-10 20:00
行业核心动态 - 全球内存(RAM)供应无法满足需求 主要原因是英伟达、超微半导体和谷歌等公司的人工智能芯片需要大量内存 这些公司是内存部件的优先客户 [1] - 行业研究机构TrendForce预计 本季度DRAM内存平均价格将比2025年第四季度上涨50%至55% 该涨幅被描述为“前所未有” [4] - 人工智能芯片所需的高带宽内存(HBM)比用于消费级笔记本电脑和智能手机的内存要求更高 其生产工艺复杂 美光科技每生产1比特HBM内存 就需要放弃生产3比特的传统内存 [6][7] - 内存制造商更倾向于将产能分配给服务器和HBM应用 因为该业务需求增长潜力更高 且云服务提供商对价格不那么敏感 [7] - 人工智能行业将内存性能限制处理器速度的现象称为“内存墙” 处理器需要花费大量时间等待数据 [12] 主要内存供应商状况 - 三大主要内存供应商美光科技、SK海力士和三星电子几乎占据了整个RAM市场 其业务正受益于需求激增 [2] - 美光科技过去一年股价上涨247% 最近一个季度净利润几乎增长两倍 三星电子预计其12月季度营业利润也将近增长两倍 SK海力士因股价飙升考虑在美国上市 并已锁定了其2026年全部RAM产能的需求 [3] - 美光科技表示 其中期最多只能满足部分客户三分之二的内存需求 公司目前正在爱达荷州博伊西建设两座大型晶圆厂 预计分别于2027年和2028年开始生产内存 并将在纽约州克莱镇新建一座预计2030年投产的晶圆厂 [19] - 美光科技表示 公司2026年的产能已售罄 [20] 人工智能驱动需求 - 英伟达近期投入生产的Rubin GPU 每颗芯片配备高达288GB的下一代HBM4内存 该GPU将作为名为NVL72的单服务器机架的一部分出售 该系统整合了72颗此类GPU [5] - 为专注于人工智能芯片和服务器供应 美光科技于12月宣布将终止部分面向消费级PC制造商提供内存的业务 [8] - 英伟达创始人兼CEO黄仁勋表示 由于人工智能需求极高 最终需要建设更多的内存工厂 英伟达作为内存市场的超大客户 正在推动所有HBM供应商扩大产能 [18][19] 对消费电子行业的影响 - 内存成本在笔记本电脑硬件成本中的占比已从2025年上半年的10%-18%上升至约20% [15] - 戴尔公司在11月表示 预计内存短缺将导致其所有产品的成本基础上升 公司计划调整配置组合以最小化价格影响 但短缺仍可能影响设备的零售价格 [16] - 消费级RAM价格在几个月内急剧上涨 举例而言 几个月前花费约300美元购买的256GB RAM 如今价格已升至约3000美元 [9] - 行业人士对消费级内存价格上涨的幅度和速度感到惊讶 [8] 技术发展与替代方案 - 在OpenAI的ChatGPT于2022年底推出前 人工智能研究人员已开始将内存视为瓶颈 当前流行的大语言模型比之前的卷积神经网络等模型需要更多内存 [11] - 更多、更快的内存意味着人工智能系统可以运行更大的模型 同时服务更多客户 并增加允许聊天机器人记住先前对话的“上下文窗口” [13] - Majestic Labs正在设计一个用于推理的人工智能系统 其内存高达128TB 约为当前一些人工智能系统的100倍 该公司计划采用低成本方案而非HBM内存 以实现以更低功耗同时支持显著更多用户 [13][14]
Why Astera’s Leo Deployment on Azure M-Series Signals Progress on the Memory Wall
Yahoo Finance· 2025-12-09 00:08
公司业务与产品 - Astera Labs Inc 是一家为机架级人工智能基础设施提供基于半导体的连接解决方案的公司 [3] - 公司的核心产品之一是 Leo CXL 智能内存控制器 该产品旨在为云和人工智能工作负载扩展和池化内存 [3] 产品技术进展 - 2025年11月18日 公司宣布其 Leo CXL 智能内存控制器已在微软 Azure M系列虚拟机上启用预览 [1] - 此次预览允许客户评估 CXL 内存扩展技术在其自身工作负载中的应用 [1] - 公司将 Azure M系列定位为业界首个宣布部署 CXL 附加内存的案例 [1] 技术规格与优势 - Leo 控制器支持 CXL 2.0 标准 每个控制器可支持高达 2TB 的内存容量 [2] - 该技术允许云服务提供商将服务器内存容量扩展超过1.5倍 [2] - 产品旨在解决内存墙问题 特别适用于内存数据库、人工智能推理、大语言模型的KV缓存和大数据分析等数据密集型应用场景 [1] 市场定位与机遇 - 公司被描述为增长最快的半导体股票之一 [1] - 其产品部署旨在缓解现代服务器中的内存容量瓶颈 [2]
无限人工智能计算循环:HBM 三巨头 + 台积电 × 英伟达 ×OpenAI 塑造下一代产业链-The Infinite AI Compute Loop_ HBM Big Three + TSMC × NVIDIA × OpenAI Shaping the Next-Generation Industry Chain
2025-10-20 09:19
**行业与公司概览** * **涉及行业**:人工智能(AI)计算、半导体制造、先进封装、高带宽内存(HBM)、硅光子、数据中心基础设施[1][4][8] * **涉及公司**:台积电(TSMC)、英伟达(NVIDIA)、OpenAI、SK海力士(SK Hynix)、三星(Samsung)、美光(Micron)、美满电子(Marvell)、博通(Broadcom)、长鑫存储(CXMT)、长江存储(YMTC)等[1][29][57][60][66] **核心观点与论据** * **AI永动循环与基础设施重构** * AI发展进入前所未有的加速阶段,形成“AI永动循环”:AI芯片驱动计算需求,计算需求刺激基础设施投资,基础设施反过来推动AI芯片应用扩展[4] * 2026年将成为AI基础设施系统性重构的关键转折点,性能提升的瓶颈从GPU本身转向内存带宽、封装互连、热管理和电源[18][19] * 计算是引擎,但带宽和热管理是传动系统,当传动系统无法线性扩展时,整个价值链被重新定义[19] * **台积电(TSMC)的核心战略地位** * 台积电的先进制程和封装能力是整个AI循环的基础,是支持从设计、制造到封装和系统集成的唯一战略枢纽[6][8][17] * 台积电通过与三大DRAM供应商合作,正式进入HBM基础晶圆的设计和制造领域,标志着HBM竞争进入内存-逻辑协同设计和集成的新时代[85][92][94] * 台积电的CoWoS-R平台成为HBM封装验证的关键平台,通过多层RDL布线优化信号完整性和电源完整性[90][102][109] * **内存墙挑战与解决方案** * GPU性能提升速度远快于HBM,导致内存墙问题日益突出,成为2025年行业焦点[12] * HBM的演进超越内存工艺本身,成为与先进封装深度耦合的工程系统,未来AI竞赛的决胜因素在于掌握逻辑工艺+内存集成+光电封装+互连架构的能力[13] * 解决方案包括:CXL架构实现内存池化和近内存计算[124][126][128]、硅光子技术提供纳秒级延迟和Tb/s级带宽以突破封装和光罩限制[25][26][131]、以及高带宽闪存作为低成本大容量的补充层[26][154] * **供应链权力格局重塑** * 云服务提供商推行“去英伟达化”战略,开发自研ASIC并直接采购HBM,分散定价权,使先进封装产能成为战略资源[23][57][60] * OpenAI与博通合作开发3纳米AI ASIC,并计划每月直接向三星和SK海力士采购90万片DRAM晶圆,相当于韩国两大内存供应商总产能的约75%,侵蚀英伟达对HBM市场的主导权[60][62][316] * 供应链重组具有地缘政治意义,美韩科技联盟加强,而中国内存制造商在高端HBM市场被进一步边缘化[29][66] * **先进封装与系统协同优化** * 战略竞争最终回归先进封装和系统协同设计,非对称HBM布局、多层RDL、PDN分区和光模块集成推动STCO成为主流设计方法[27][183][186] * 美满电子提出定制HBM架构,通过用D2D PHY取代标准HBM PHY,将内存控制器移至逻辑基础晶圆上,可释放25%的芯片面积用于计算逻辑,并将接口功耗降低70%[196][198][203] * 带宽限制和封装瓶颈从DRAM缩放转向RDL电气控制,RDL的PI/SI性能成为决定封装架构能否通过高速验证的关键支撑点[97][100][104] * **2026年市场重新定价与能力曲线拐点** * 2026年,电力、水资源、先进封装产能和光互连能力都将被重新定价,赢家将是那些能够将带宽工程转化为生产力和定价杠杆的企业[28][47][51] * AI能力增长并非线性,当总算力达到艾级到泽它级范围时,改进可能从缓慢曲线转变为阶跃式飞跃,预计2026年初将出现一波集中的突破[39][40][55] * 这种非线性飞跃并非必然,存在“缩放墙”的争论,但物理世界瓶颈必须面对,包括能源消耗、冷却、光互连带宽和土地基础设施[43][45] * **ASIC的崛起与定制化趋势** * 云服务提供商为优化能效和成本,纷纷开发自研AI ASIC,预计到2025年,ASIC将占据数据中心40%的推理和50%的训练工作负载[247][263][277] * 定制加速计算市场预计从2023年的66亿美元增长至2028年的429亿美元,复合年增长率为45%[264][266] * 竞争已超越单个公司,成为整个供应链整合和工艺生态系统的竞赛,未来AI基础设施将是包含GPU、ASIC、光互连模块和CXL内存架构的异构生态系统[252][254] * **HBM市场爆发式增长与周期演变** * 全球HBM市场预计从30亿美元飙升至530亿美元,复合年增长率为97%[297][302] * AI驱动的内存需求正在重塑传统的内存繁荣-萧条模式,转向由AI计算工作负载直接拉动需求的更持久、更高价值的结构性增长轨迹[313][315][318] * HBM4/HBM4e深度依赖先进逻辑节点,内存行业正从“组件制造”演变为“协同设计的系统”,集成SoC+内存+中介层+封装[303][304][320] * **边缘AI与移动HBM前景** * 行业正开发移动版HBM,称为低延迟宽I/O DRAM,预计2026年至2028年实现商业化,应用于智能手机、XR和汽车设备[333][336][338] * 突破条件包括:功耗与热管理、封装技术成熟度以及成本控制,初期将出现在超高端旗舰产品或专业设备中[342][349][350] **其他重要内容** * **风险与挑战**:AI缩放法则可能面临收益递减、CPO的热管理和可维护性问题尚未完全解决、CXL的NUMA软件开销可能减缓商业化、HBF延迟限制了其在训练场景中的实用性[31][34] * **中国厂商现状**:长鑫存储专注于DRAM,计划2026年生产HBM3,长江存储专注于3D NAND,未活跃于HBM领域,两者在高端市场面临结构性压力[66][67][271] * **光子学技术平台比较**:文档30提供了一个表格,比较了不同互连技术、距离和应用场景,突出了硅光子学在系统级互连中的潜力[30]