Workflow
内存墙
icon
搜索文档
存储猛拉,AI存力超级周期到底有多神?
36氪· 2026-01-06 20:19
文章核心观点 AI需求全面驱动存储行业进入上行周期,从HBM延伸至DRAM、NAND、HDD等传统存储领域,行业格局被重塑[3] 本轮周期的猛烈程度高于以往,以美光为例,其下季度毛利率指引达66-68%,创历史新高[1] AI服务器从训练向推理的重心转移,催生了“低延迟、大容量、高带宽”的差异化存储需求,而存储厂商资本开支向高附加值的HBM与DRAM倾斜,形成结构性供需失衡,推动产品价格大幅上涨[3] AI服务器带来的存储大周期 - AI需求彻底重塑存储行业格局,带动HBM、DRAM、NAND、HDD全品类进入全面上行周期[3] - AI服务器数据流动路线清晰:HDD的冷数据 -> SSD预热 -> DRAM中转 -> HBM配合计算,各部分在训练和推理服务器中均需要[12] - 当前AI服务器领域出现明显变化:重心从训练向推理迁移,推理服务器更注重DDR(并发任务)、SSD(快速响应)和HDD(大容量)[14] 各类存储在AI服务器中的角色 - **HBM**:与GPU芯片3D堆叠,是GPU的“专用显存”,具有高带宽、高功耗特点,决定单GPU可承载的模型规模与响应速度,是AI服务器的“性能天花板”[11] - **DRAM (DDR5)**:是数据交换枢纽,连接HBM与NAND的“桥梁”,速度比HBM慢但容量大很多倍,其容量决定单服务器可同时处理的任务数,是AI服务器的“内存基石”[12] - **NAND (SSD)**:是热数据仓库,高频访问数据的“快速持久层”,连接DRAM与HDD,作为AI数据中心的“性能-容量平衡者”,是训练数据“快速补给站”和推理服务“快速响应核心”[12] - **HDD**:海量冷数据的低成本容器,具有大容量、成本低特点,是AI数据中心的“容量基石”,决定整体数据存储规模[12] 当前AI存储的特点与“内存墙”瓶颈 - AI数据中心核心矛盾是“内存墙”瓶颈:算力增长速度远超数据传输速度,导致GPU等计算单元空置率高达99%[5] - 以H100为例,HBM带宽3.35TB/s,单Token计算时间10微秒,但加载模型权重(如10GB)和KV缓存(如20GB)需要约9毫秒,计算闲置时间占比近99%[16] - 应对“内存墙”的三大方法: 1. **HBM升级**:堆叠层数从12-Hi向16-Hi升级,传输速度有望从B300的8TB/s提升至16-32TB/s,减少数据排队等待时间[18] 2. **SRAM应用**:3D堆叠SRAM将KV缓存、模型轻量权重放在计算单元近端,量产后采用“SRAM+HBM”形式(SRAM负责“快”,HBM负责“多”),有望将延迟从100ns大幅缩短至2ns附近[19] 3. **存算一体**:将部分算力嵌入存储内部,彻底消除数据搬运速度问题,预计2027年及之后逐渐成为解决途径[19] - 英伟达收购Groq属于防御性收购,旨在获得其SRAM技术(LPU架构、TSP微架构等)和人才,以提升AI推理能力并防止技术落入竞争对手之手[21] HBM市场供需与升级 - HBM是AI需求带来的“从无到有”的直接增量需求,其需求量与AI芯片出货直接挂钩[23] - 当前主流AI芯片(英伟达、AMD、谷歌)基本搭载HBM3E,三大原厂已开始对HBM4进行送样,HBM4预计2026年开启量产[6][24] - **供给端**:三大原厂(三星、海力士、美光)资本开支重心投向HBM领域[27] 2025年四季度三家合计HBM月产能约39万片,预计到2026年四季度提升至51万片[29] 考虑产能爬坡和50%综合良率,预计2026年HBM供应量约为41.9亿GB[34][35] - **需求端**:HBM需求量通过“CoWoS -> AI芯片 -> HBM”路径估算,2026年全球CoWoS需求量约128万片,对应HBM需求量约42亿GB[36][39] - **供需格局**:2026年HBM市场呈现“供应紧平衡”状态,供应量(41.9亿GB)与需求量(42亿GB)基本匹配[6][39] - **竞争格局**:海力士占据当前HBM市场近一半份额,三星和美光份额接近[32] 随着三星HBM3E在2024年四季度获得英伟达认证,其出货份额有望回升并反超美光[32]
美国制造一颗真正的3D芯片
半导体行业观察· 2025-12-13 09:08
文章核心观点 - 一个由美国多所顶尖大学与Skywater晶圆代工厂合作的团队,成功制造出首颗单片3D芯片,该芯片通过垂直堆叠架构实现了远超传统二维芯片的性能,为解决人工智能硬件面临的内存瓶颈和小型化瓶颈提供了新路径,并有望开启美国国内半导体创新的新时代 [2][3][7] 技术突破与架构创新 - 芯片采用创新的垂直多层架构,关键组件如摩天大楼楼层般向上堆叠,垂直布线如同高速电梯,实现了快速、海量的数据传输 [2] - 该设计突破了传统扁平二维芯片的“内存墙”瓶颈,即计算速度远超数据传输速度导致系统等待的问题 [4] - 与大多数通过堆叠独立芯片实现的3D芯片不同,该芯片采用“单片式”连续工艺,将每一层直接叠加在前一层之上,实现了更高密度的层间连接 [6] - 单片工艺使用的温度足够低,不会损坏下层电路,使得元件堆叠更紧密,连接密度创下纪录 [6] 性能表现与潜力 - 早期硬件测试表明,该原型芯片的性能比同类二维芯片高出约四倍 [7] - 对具有更多堆叠层的未来版本进行模拟显示,在源自Meta开源LLaMA模型的实际人工智能工作负载上,性能提升高达12倍 [7] - 该设计为将能量延迟积(EDP)——平衡速度和能效的关键指标——提升100到1000倍开辟了切实可行的途径 [7] - 通过大幅缩短数据传输距离并增加垂直路径,芯片可同时实现更高吞吐量和更低单次操作能耗 [7] 制造与产业意义 - 整个制造过程完全在美国本土的商业硅晶圆厂Skywater完成,证明了前沿学术概念可转化为国内大规模生产的产品 [6] - 此项工作为美国国内硬件创新新时代奠定了蓝图,使美国能够设计和制造最先进的芯片 [7] - 向垂直单片3D集成的转变需要新一代精通相关技术的工程师,通过合作与资金支持,学生和研究人员正在接受培训以推动美国半导体创新 [7] - 此类突破不仅关乎性能,更关乎能力,能够制造先进3D芯片将有助于更快地创新、响应并塑造人工智能硬件的未来 [8]
传迈威尔科技(MRVL.US)拟斥资50亿美元收购Celestial AI 押注光子互联破局“...
新浪财经· 2025-12-02 14:57
潜在收购交易 - 美国芯片制造商迈威尔科技正就收购芯片初创公司Celestial AI进行深入谈判,交易形式为现金加股票,总价值可能超过50亿美元,交易最早可能于12月3日宣布 [1] - 迈威尔科技是一家网络芯片制造商,市值为785.4亿美元,与博通在供应商定制芯片和网络业务方面存在竞争 [1] - 此次潜在收购将增强迈威尔科技的产品组合,并凸显市场对算力的强劲需求 [1] 收购标的情况 - Celestial AI是一家获得AMD分支机构支持的芯片初创公司,于3月份筹集了2.5亿美元风险资本,使其总融资额达到5.15亿美元 [1] - 该公司董事会成员包括英特尔首席执行官陈立武 [1] - Celestial AI致力于开发名为Photonic Fabric的光互连平台,旨在解决AI计算中的“内存墙”瓶颈,该技术利用光子学(光信号)在AI计算芯片和内存芯片之间建立高速连接 [1][2] 技术与市场机遇 - “内存墙”已成为AI大模型系统性能扩展的主要障碍,源于算力单元与内存之间数据访问速度严重不匹配,当模型参数膨胀至数十万亿时,系统效率因低内存带宽和高延迟而大打折扣 [2] - Celestial AI的Photonic Fabric平台提供高带宽、低延迟和低功耗的解决方案,支持AI加速器从芯片内到多机架部署的扩展 [2] - 行业普遍认为光互连技术将成为下一代AI服务器的标准配置,若收购成功,迈威尔科技将掌握核心IP,增强其争取云巨头(如微软、谷歌)下一代订单的竞争力 [3] 行业竞争格局 - AMD和英特尔等公司急需打破英伟达的NVLink封闭生态,将自家算力芯片延伸至光域互联,而Celestial AI的技术对此具有吸引力 [3] - 三星作为全球HBM和DDR产能第一的公司,也需要Celestial AI的内存池来扩大其商业模式 [3] - 通过收购Celestial AI,迈威尔科技可能获得一张“未来王牌”,在未来的AI基础设施竞争中占据有利位置 [3]
传迈威尔科技(MRVL.US)拟斥资50亿美元收购Celestial AI 押注光子互联破局“内存墙”
智通财经· 2025-12-02 14:57
收购交易核心信息 - 美国芯片制造商迈威尔科技正深入谈判,拟以价值数十亿美元的现金加股票交易收购芯片初创公司Celestial AI [1] - 包括产品里程碑收益在内的总交易价格可能超过50亿美元,交易最早可能于12月3日宣布 [1] - 迈威尔科技是一家网络芯片制造商,市值为785.4亿美元,与博通在供应商定制芯片和网络业务领域竞争 [1] 收购方迈威尔科技 - 对Celestial AI的潜在交易将增强迈威尔科技的产品组合,凸显市场对算力的强劲需求 [1] - 若收购成功,迈威尔科技将获得光互连技术这一“未来王牌”,若该技术成为下一代AI服务器标准配置,公司将掌握核心IP,增加其争取云巨头(如微软、谷歌)下一代订单的筹码 [3] 被收购方Celestial AI - Celestial AI是一家获得AMD分支机构支持的芯片初创公司,于3月份筹集了2.5亿美元风险资本,使其总融资额达到5.15亿美元 [1] - 公司董事会成员包括英特尔首席执行官陈立武 [1] - 公司致力于开发光互连平台Photonic Fabric,旨在解决AI计算架构中的“内存墙”瓶颈,提供高带宽、低延迟和低功耗的解决方案 [2] - 公司利用光子学技术(使用光而非电信号)在AI计算芯片和内存芯片之间建立高速连接 [1] 行业背景与技术挑战 - “内存墙”已成为AI大模型系统性能扩展的最大障碍,源于算力单元(CPU、NPU等)和内存(DDR、HBM)数据访问速度严重不匹配 [2] - 当模型参数膨胀到数十万亿时,算力单元的计算能力被低内存带宽和高延迟严重拖累,系统效率大打折扣 [2] - Celestial AI的光互连平台着眼于解决计算和内存之间的瓶颈 [2] 战略意义与行业格局 - 收购Celestial AI将增强迈威尔科技在高速互联领域的产品组合,应对市场对算力的强劲需求 [1] - AMD和英特尔等公司急需打破英伟达的NVLink封闭生态,将自家算力芯片延伸到光域互联,而三星作为全球HBM和DDR产能第一的厂商,也需要Celestial AI的内存池来扩大其商业模式 [3] - 光互连技术有望成为下一代AI服务器的标准配置 [3]
国泰海通:打破内存墙限制 AI SSD迎来广阔成长空间
智通财经网· 2025-10-28 20:33
行业核心观点 - 国泰海通证券给予电子行业“增持”评级 [1][2] - AI创造的庞大数据量冲击全球数据中心存储设施 [1][2] - 基于SSD的存储卸载技术方案可为AI模型高效运行提供新路径 [1][3] 技术挑战:KV Cache与内存瓶颈 - 键值缓存(KV Cache)技术通过存储已生成token的Key和Value来优化计算效率、减少重复运算,显著提升推理效率 [2] - 随着Agentic AI时代到来,模型规模化扩张、长序列需求激增以及推理任务并发量增长,推理的KV Cache容量增长已超出HBM的承载能力 [2] - KV Cache需要占用GPU的显存(如HBM),生成的文本越长,缓存数据量越大,可能导致HBM和DRAM超载,造成频繁的内存溢出和卡顿迟缓 [2] 解决方案:存储卸载技术 - 业界探索KV Cache分级缓存管理技术,支持将KV Cache缓存从GPU内存卸载到CPU、SSD甚至网络存储,以解决大模型显存瓶颈 [2][3] - 英伟达推出的分布式推理服务框架Dynamo支持KV Cache卸载,其KVBM提供从GPU memory到CPU host memory、SSD、远端存储的卸载,避免大量KV Cache重计算 [3] - 三星电子提出基于SSD的存储卸载方案,将KV Cache卸载至NVMe SSD,可使首token延迟(TTFT)最高降低66%,token间延迟(ITL)最高降低42% [3] 市场趋势:存储设备更替 - 传统作为海量数据存储基石的Nearline HDD已出现供应短缺,促使高效能、高成本的SSD逐渐成为市场焦点 [1][2][4] - AI推理应用推升实时存取、高速处理海量数据的需求,促使HDD与SSD供应商积极扩大供给大容量存储产品 [4] - 由于HDD市场面临巨大供应缺口,NAND Flash业者加速技术转进,投入122TB、甚至245TB等超大容量Nearline SSD的生产 [4]
国泰海通|电子:打破内存墙限制,AI SSD迎来广阔成长空间
文章核心观点 - AI大模型发展面临"内存墙"难题,基于SSD的存储卸载技术成为解决方案新路径 [1] - AI推理应用推升高速处理海量数据需求,激发HDD替代效应,大容量Nearline SSD迎来发展机遇 [1][4] - 行业给予"增持"评级 [1] KV Cache技术挑战 - 键值缓存技术通过存储历史Key/Value向量优化计算效率,但会占用GPU显存 [2] - 生成文本越长缓存数据量越大,可能导致HBM和DRAM超载 [2] - 模型规模化扩张和长序列需求激增使KV Cache容量增长超出HBM承载能力 [2] 存储卸载技术方案 - 业界探索KV Cache分级缓存管理技术,支持将缓存从GPU内存卸载到CPU、SSD及网络存储 [3] - 英伟达Dynamo框架提供G1-G4四级KV Cache卸载方案 [3] - 三星将KV Cache卸载至NVMe SSD方案使首token延迟最高降低66%,token间延迟最高降低42% [3] - 方案支持多用户多轮对话场景下的KV Cache重用,I/O吞吐量随对话轮次增加而上升 [3] 存储市场趋势 - AI推理应用推升实时存取、高速处理海量数据需求 [4] - HDD市场面临巨大供应缺口,促使NAND Flash业者加速技术转进 [4] - 供应商积极投入122TB、245TB等超大容量Nearline SSD的生产 [4]
AI存储赛道,华为再出招
第一财经资讯· 2025-08-27 19:29
产品发布 - 华为于8月27日推出AI SSD产品系列 包括OceanDisk EX/SP/LC 最高单盘容量达122/245TB 为业内最大容量 [1] - AI SSD是专为AI工作负载优化的高性能大容量固态硬盘 结合公司自研多项核心技术 有望成为国产SSD突破的关键一步 [1] 行业挑战 - AI应用普及导致数据语料库从纯文本走向多模态 数据规模指数级增长 推理文本从短序列走向多模态融合长序列 [1] - 内存墙和容量墙问题成为AI训推效率和体验的关键瓶颈 对IT基础设施性能和成本造成巨大挑战 [1] - 训练671B大模型需采集3.5PB数据 全球互联网语料总量从350PB(文本)暴涨至154ZB(多模态) 传统存储介质难以承载 [1] - 671B模型训练微调需要13.4TB内存 需168卡承载 无法在一体机运行 限制模型训练效率与灵活性 [1] - 模型推理阶段TTFT平均1000ms 是美国大模型的2倍 TPS平均25 token/s 仅为美国大模型的1/10 影响用户体验与业务效率 [2] 市场竞争格局 - 2025年第一季度全球前五大企业级SSD品牌厂商依次为三星 SK海力士 美光 铠侠和闪迪 [2] - 中国存储容量增长快 但此前主要采用机械硬盘HDD 先进存储技术相对滞后 [2] - 华为 曙光 浪潮及长江存储等厂商逐步走出国产厂商自己的发展路径 [2] 技术发展趋势 - AI场景下SSD具有省电 高效 低运营成本优势 推动渗透率快速提升 [2] - 2024年服务器存储方案中固态硬盘占比预计达9%-10% 2028年AI服务器的SSD需求占比将攀升至20% [2] - 未来国内市场将逐步用大容量QLC SSD替代HDD 推动存储产业从容量导向向性能与容量双优转型 [3] - 华为等技术突破与生态构建将加速AI存储产业成熟 [3] 基础设施现状 - 截至今年6月底 我国存力规模达1680EB 呈现区域梯次布局 单机架密度提升 闪存渗透率提高三大特征 [3] - 全国外置闪存占比超过28% 金融 制造 互联网三个行业渗透率超45% 存力建设迈向升级阶段 [3]
算力:从英伟达的视角看算力互连板块成长性 - Scale Up 网络的“Scaling Law”存在吗?
2025-08-21 23:05
行业与公司 * 行业聚焦于AI算力网络互连板块 特别是Scale Up网络技术及其带来的产业链机会[1] * 核心讨论围绕英伟达及其产品策略展开 同时涉及亚马逊、谷歌、Meta等公司的ASIC方案[5] * 产业链受益环节包括光纤、AEC(有源铜缆)、光模块(1.6T)、MPO、FU以及交换机厂商(如锐捷网络、博通、天弘、Arista等)[28][30] 核心观点与论据 * **Scale Up网络的定义与必要性**:Scale Up网络旨在实现跨机柜的大规模连接 将机柜当作积木连接 其核心驱动力是解决硬件内存墙问题并满足AI并行计算(尤其是专家并行和张量并行)的高通信需求[1][5][7][10] * **英伟达的推广策略**:通过两条路径推广 一是不断提高Nvlink带宽(每代产品单卡带宽基本翻倍) 二是扩大Up规模(如从H100升级到GH200时将MV8提升到MV256) 后因成本高和推理需求不足而推出更具性价比的NVO32方案[6] * **Scale Up相比Out网络的优势**:在超节点内能提供更高带宽 在英伟达系统中Up带宽是Out的九倍 未来随着规模扩大可能取代Out 实现AI网络统一连接[7][8] * **性能优势验证**:GB200使用FP4精度 在TPS(Token Per Second)为10时 其单卡性能比B200差三倍(两倍来自FP4 0.5倍来自Scale Up和Grace CPU);当TPS为20时 差距变为七倍(3.5倍来自Scale Up和Grace CPU) 表明网络通信压力增大时Scale Up优势更明显[4][14][15] * **更大规模网络的需求**:为满足单用户TPS增长和模型能力拓展(如多模态模型) 需要组建更大规模的Scale Up网络(如NVL576) 其规模扩大速度需快于性能指标增长速度[21][22] * **组网方式与技术选择**:更大规模网络需进行机柜间第二层连接 建议采用光纤和AEC(有源铜缆)而非PCB(柜内)和DAC(有效距离仅1米)[23][24] * **带来的增量需求**:在第二层网络中 一个GPU需要9个等效1.6T连接(传统IB架构仅需2-3个) 且每4个GPU需额外增加一台Nvlink交换机(传统IB架构每30-48颗GPU才需一台) 导致端口和交换机需求显著增长[4][25][26] 其他重要内容 * **内存墙概念**:分为模型内存墙和算力内存墙 指模型参数量和算力增速快于配套内存(如HBM)增速 需通过高速通信实现显存池化[1][10] * **并行计算范式**:包括数据并行、流水线并行、专家并行和张量并行 后两者对通信频率和数据大小要求更高[2][11][12][13] * **总拥有成本(TCO)分析**:GB200 NVL72方案的总硬件成本约为6.1万美金 比NVL576方案节省2万美金[18][19] * **技术路径排除**:CPO和OCS技术因故障率瓶颈和镇静频率问题 目前尚未能应用于Scale Up场景[27] * **市场认知差异**:市场普遍认为Scale Up仅限于柜内 但实际需要跨机柜连接以提升单卡性能有效利用率[29][30]
从英伟达的视角看算力互连板块成长性——Scale Up网络的“Scaling Law”存在吗? | 投研报告
中国能源网· 2025-08-20 15:47
核心观点 - AI算力发展面临"内存墙"问题及计算范式演进推动Scale Up网络升级 显著提升网络连接需求 [1][2][3] - Scale Up网络存在Scaling Law 柜间第二层网络将出现 光连接与AEC需求达芯片1:9配比 交换机需求达芯片4:1配比 较Scale Out网络倍增 [2][4] - 英伟达通过提升单卡带宽至7200Gb/s和扩大超节点规模持续扩大Scale Up网络 NVL72机柜方案将作为基础节点进一步扩展 [2] - 更大Scale Up网络可解决TCO 用户体验和模型能力拓展问题 单用户Token消耗增长推动单卡有效性能提升 [3] - 网络构建需柜间第二层Scale Up交换机 光与AEC并存 每颗GPU需9个额外等效1.6T连接 每4颗GPU需额外1台交换机 [4] Scale Up网络驱动因素 - 模型内存墙:单一大模型参数量与单卡显存差距逐代放大 [1][3] - 算力内存墙:单卡算力与单卡显存差距逐代放大 [1][3] - 计算范式演进:张量并行与专家并行对通信频次和容量要求跨越数量级 [3] 英伟达技术路径 - NVLink5.0单卡带宽达7200Gb/s [2] - 超节点规模从H100NVL8扩展到GH200/GB200 NVL72机柜方案可提高训推效率 [2] - NVL72将作为最小节点在柜间拼出更大Scale Up超节点 需光连接通信 [2] 规模扩展必要性 - 单用户每秒Token消耗量提高导致现有服务器单卡性能坍缩 [3] - 用户体验提升和模型能力拓展要求单用户TPS增长 [3] - Scale Up规模与预期单用户TPS 单卡实际性能间存在非线性Scaling Law [3] 网络构建方案 - 柜间搭建第二层Scale Up交换机 [4] - 光与AEC在第二层网络中并存 [4] - 单颗GPU需要9个额外等效1.6T连接 为Scale Out网络的3-4.5倍 [4] - 每4颗GPU需要额外1台交换机 为Scale Out网络的7.5-12倍 [4] 受益环节及标的 - 光互连:中际旭创 新易盛 天孚通信 光库科技 长芯博创仕佳光子 源杰科技 长光华芯 太辰光 [4] - 铜互连:中际旭创 兆龙互连 [4] - 交换机:锐捷网络 盛科通信 Astera Labs 博通 天弘科技 Arista [4]
一觉醒来,中国打碎美国关键科技封锁,迎来了扬眉吐气的一刻
搜狐财经· 2025-08-16 05:38
中国HBM技术突破的背景与意义 - 中国人工智能产业曾长期依赖进口高带宽内存(HBM)技术,2024年底HBM突遭出口管制导致高性能计算项目面临停滞风险 [1] - HBM是AI算力系统的关键组件,负责高速数据供应,其性能直接决定计算效率,被称为“隐形油箱”或“超级油箱” [3][5] - 传统内存技术存在“内存墙”问题,即计算核心性能进步远快于内存数据供应速度,导致计算效率大打折扣 [7][9] HBM技术特点与突破难点 - HBM通过多层内存芯片垂直堆叠和硅通孔(TSV)技术实现高速数据传输,大幅缩短数据传递距离并提供惊人带宽 [9][10] - 技术难点包括精密堆叠十几层芯片、数千个TSV微型通道的精准对齐以及堆叠后的散热防止芯片烧毁 [18][20] - HBM对人工智能大模型而言并非奢侈品而是必需品,直接影响AI系统的运行效率 [10] 技术突破过程与成果 - 2024年12月至2025年8月间,国内存储芯片企业联合封装测试厂、设备制造商和科研院所形成攻关联合体 [16][20] - 基于自主16纳米工艺的国产HBM3样品于2025年夏季研制成功,并送至下游头部企业验证 [22] - 中国成为全球第三个掌握HBM技术的国家,实现从零到一的决定性跨越,尽管在堆叠层数和峰值带宽上与国际最新HBM3E仍有差距 [22][24] 产业影响与战略意义 - 国产HBM为“东数西算”等国家级算力工程提供底层安全保障,减少对进口核心部件的依赖 [25] - 中国市场需求巨大,预计2025年将占全球HBM需求近三分之一,为技术迭代提供重要练兵场 [27] - 技术突破动摇了通过封锁遏制对手的战略根基,证明技术壁垒反而成为创新催化剂 [29]