内存墙
搜索文档
美国制造一颗真正的3D芯片
半导体行业观察· 2025-12-13 09:08
虽然学术实验室此前也曾制造过实验性的3D芯片,但这是此类芯片首次展现出明显的性能提升,并 在商业代工厂实现量产。"这开启了芯片生产和创新的新时代,"斯坦福大学电气工程系威廉·E·艾尔 讲席教授兼计算机科学教授苏巴希什·米特拉(Subhasish Mitra)说道。他是描述该芯片的一篇新论 文的主要研究者,该论文在12月6日至10日于旧金山举行的第71届IEEE国际电子器件年会(IEDM 2025)上发表。"正是像这样的突破,才能让我们实现未来人工智能系统所需的1000倍硬件性能提 升。" 平面芯片面临的挑战 像 ChatGPT 和 Claude 这样的现代人工智能模型必须在存储信息的内存和处理信息的计算单元之间 来回传输海量数据。 在传统的二维芯片上,各个组件排列在一个扁平的表面上,内存有限且分布分散,因此数据必须沿着 几条漫长而拥挤的路径传输。由于计算单元的运行速度远超数据传输速度,而且芯片无法在附近存储 足够的内存,系统最终会不断地等待信息。工程师们将这种瓶颈称为"内存墙",即处理速度超过芯片 数据传输能力的临界点。 公众号记得加星标⭐️,第一时间看推送不会错过。 一个协作团队在美国晶圆代工厂制造出了第一 ...
传迈威尔科技(MRVL.US)拟斥资50亿美元收购Celestial AI 押注光子互联破局“...
新浪财经· 2025-12-02 14:57
潜在收购交易 - 美国芯片制造商迈威尔科技正就收购芯片初创公司Celestial AI进行深入谈判,交易形式为现金加股票,总价值可能超过50亿美元,交易最早可能于12月3日宣布 [1] - 迈威尔科技是一家网络芯片制造商,市值为785.4亿美元,与博通在供应商定制芯片和网络业务方面存在竞争 [1] - 此次潜在收购将增强迈威尔科技的产品组合,并凸显市场对算力的强劲需求 [1] 收购标的情况 - Celestial AI是一家获得AMD分支机构支持的芯片初创公司,于3月份筹集了2.5亿美元风险资本,使其总融资额达到5.15亿美元 [1] - 该公司董事会成员包括英特尔首席执行官陈立武 [1] - Celestial AI致力于开发名为Photonic Fabric的光互连平台,旨在解决AI计算中的“内存墙”瓶颈,该技术利用光子学(光信号)在AI计算芯片和内存芯片之间建立高速连接 [1][2] 技术与市场机遇 - “内存墙”已成为AI大模型系统性能扩展的主要障碍,源于算力单元与内存之间数据访问速度严重不匹配,当模型参数膨胀至数十万亿时,系统效率因低内存带宽和高延迟而大打折扣 [2] - Celestial AI的Photonic Fabric平台提供高带宽、低延迟和低功耗的解决方案,支持AI加速器从芯片内到多机架部署的扩展 [2] - 行业普遍认为光互连技术将成为下一代AI服务器的标准配置,若收购成功,迈威尔科技将掌握核心IP,增强其争取云巨头(如微软、谷歌)下一代订单的竞争力 [3] 行业竞争格局 - AMD和英特尔等公司急需打破英伟达的NVLink封闭生态,将自家算力芯片延伸至光域互联,而Celestial AI的技术对此具有吸引力 [3] - 三星作为全球HBM和DDR产能第一的公司,也需要Celestial AI的内存池来扩大其商业模式 [3] - 通过收购Celestial AI,迈威尔科技可能获得一张“未来王牌”,在未来的AI基础设施竞争中占据有利位置 [3]
传迈威尔科技(MRVL.US)拟斥资50亿美元收购Celestial AI 押注光子互联破局“内存墙”
智通财经· 2025-12-02 14:57
收购交易核心信息 - 美国芯片制造商迈威尔科技正深入谈判,拟以价值数十亿美元的现金加股票交易收购芯片初创公司Celestial AI [1] - 包括产品里程碑收益在内的总交易价格可能超过50亿美元,交易最早可能于12月3日宣布 [1] - 迈威尔科技是一家网络芯片制造商,市值为785.4亿美元,与博通在供应商定制芯片和网络业务领域竞争 [1] 收购方迈威尔科技 - 对Celestial AI的潜在交易将增强迈威尔科技的产品组合,凸显市场对算力的强劲需求 [1] - 若收购成功,迈威尔科技将获得光互连技术这一“未来王牌”,若该技术成为下一代AI服务器标准配置,公司将掌握核心IP,增加其争取云巨头(如微软、谷歌)下一代订单的筹码 [3] 被收购方Celestial AI - Celestial AI是一家获得AMD分支机构支持的芯片初创公司,于3月份筹集了2.5亿美元风险资本,使其总融资额达到5.15亿美元 [1] - 公司董事会成员包括英特尔首席执行官陈立武 [1] - 公司致力于开发光互连平台Photonic Fabric,旨在解决AI计算架构中的“内存墙”瓶颈,提供高带宽、低延迟和低功耗的解决方案 [2] - 公司利用光子学技术(使用光而非电信号)在AI计算芯片和内存芯片之间建立高速连接 [1] 行业背景与技术挑战 - “内存墙”已成为AI大模型系统性能扩展的最大障碍,源于算力单元(CPU、NPU等)和内存(DDR、HBM)数据访问速度严重不匹配 [2] - 当模型参数膨胀到数十万亿时,算力单元的计算能力被低内存带宽和高延迟严重拖累,系统效率大打折扣 [2] - Celestial AI的光互连平台着眼于解决计算和内存之间的瓶颈 [2] 战略意义与行业格局 - 收购Celestial AI将增强迈威尔科技在高速互联领域的产品组合,应对市场对算力的强劲需求 [1] - AMD和英特尔等公司急需打破英伟达的NVLink封闭生态,将自家算力芯片延伸到光域互联,而三星作为全球HBM和DDR产能第一的厂商,也需要Celestial AI的内存池来扩大其商业模式 [3] - 光互连技术有望成为下一代AI服务器的标准配置 [3]
国泰海通:打破内存墙限制 AI SSD迎来广阔成长空间
智通财经网· 2025-10-28 20:33
行业核心观点 - 国泰海通证券给予电子行业“增持”评级 [1][2] - AI创造的庞大数据量冲击全球数据中心存储设施 [1][2] - 基于SSD的存储卸载技术方案可为AI模型高效运行提供新路径 [1][3] 技术挑战:KV Cache与内存瓶颈 - 键值缓存(KV Cache)技术通过存储已生成token的Key和Value来优化计算效率、减少重复运算,显著提升推理效率 [2] - 随着Agentic AI时代到来,模型规模化扩张、长序列需求激增以及推理任务并发量增长,推理的KV Cache容量增长已超出HBM的承载能力 [2] - KV Cache需要占用GPU的显存(如HBM),生成的文本越长,缓存数据量越大,可能导致HBM和DRAM超载,造成频繁的内存溢出和卡顿迟缓 [2] 解决方案:存储卸载技术 - 业界探索KV Cache分级缓存管理技术,支持将KV Cache缓存从GPU内存卸载到CPU、SSD甚至网络存储,以解决大模型显存瓶颈 [2][3] - 英伟达推出的分布式推理服务框架Dynamo支持KV Cache卸载,其KVBM提供从GPU memory到CPU host memory、SSD、远端存储的卸载,避免大量KV Cache重计算 [3] - 三星电子提出基于SSD的存储卸载方案,将KV Cache卸载至NVMe SSD,可使首token延迟(TTFT)最高降低66%,token间延迟(ITL)最高降低42% [3] 市场趋势:存储设备更替 - 传统作为海量数据存储基石的Nearline HDD已出现供应短缺,促使高效能、高成本的SSD逐渐成为市场焦点 [1][2][4] - AI推理应用推升实时存取、高速处理海量数据的需求,促使HDD与SSD供应商积极扩大供给大容量存储产品 [4] - 由于HDD市场面临巨大供应缺口,NAND Flash业者加速技术转进,投入122TB、甚至245TB等超大容量Nearline SSD的生产 [4]
国泰海通|电子:打破内存墙限制,AI SSD迎来广阔成长空间
国泰海通证券研究· 2025-10-28 20:00
文章核心观点 - AI大模型发展面临"内存墙"难题,基于SSD的存储卸载技术成为解决方案新路径 [1] - AI推理应用推升高速处理海量数据需求,激发HDD替代效应,大容量Nearline SSD迎来发展机遇 [1][4] - 行业给予"增持"评级 [1] KV Cache技术挑战 - 键值缓存技术通过存储历史Key/Value向量优化计算效率,但会占用GPU显存 [2] - 生成文本越长缓存数据量越大,可能导致HBM和DRAM超载 [2] - 模型规模化扩张和长序列需求激增使KV Cache容量增长超出HBM承载能力 [2] 存储卸载技术方案 - 业界探索KV Cache分级缓存管理技术,支持将缓存从GPU内存卸载到CPU、SSD及网络存储 [3] - 英伟达Dynamo框架提供G1-G4四级KV Cache卸载方案 [3] - 三星将KV Cache卸载至NVMe SSD方案使首token延迟最高降低66%,token间延迟最高降低42% [3] - 方案支持多用户多轮对话场景下的KV Cache重用,I/O吞吐量随对话轮次增加而上升 [3] 存储市场趋势 - AI推理应用推升实时存取、高速处理海量数据需求 [4] - HDD市场面临巨大供应缺口,促使NAND Flash业者加速技术转进 [4] - 供应商积极投入122TB、245TB等超大容量Nearline SSD的生产 [4]
AI存储赛道,华为再出招
第一财经资讯· 2025-08-27 19:29
产品发布 - 华为于8月27日推出AI SSD产品系列 包括OceanDisk EX/SP/LC 最高单盘容量达122/245TB 为业内最大容量 [1] - AI SSD是专为AI工作负载优化的高性能大容量固态硬盘 结合公司自研多项核心技术 有望成为国产SSD突破的关键一步 [1] 行业挑战 - AI应用普及导致数据语料库从纯文本走向多模态 数据规模指数级增长 推理文本从短序列走向多模态融合长序列 [1] - 内存墙和容量墙问题成为AI训推效率和体验的关键瓶颈 对IT基础设施性能和成本造成巨大挑战 [1] - 训练671B大模型需采集3.5PB数据 全球互联网语料总量从350PB(文本)暴涨至154ZB(多模态) 传统存储介质难以承载 [1] - 671B模型训练微调需要13.4TB内存 需168卡承载 无法在一体机运行 限制模型训练效率与灵活性 [1] - 模型推理阶段TTFT平均1000ms 是美国大模型的2倍 TPS平均25 token/s 仅为美国大模型的1/10 影响用户体验与业务效率 [2] 市场竞争格局 - 2025年第一季度全球前五大企业级SSD品牌厂商依次为三星 SK海力士 美光 铠侠和闪迪 [2] - 中国存储容量增长快 但此前主要采用机械硬盘HDD 先进存储技术相对滞后 [2] - 华为 曙光 浪潮及长江存储等厂商逐步走出国产厂商自己的发展路径 [2] 技术发展趋势 - AI场景下SSD具有省电 高效 低运营成本优势 推动渗透率快速提升 [2] - 2024年服务器存储方案中固态硬盘占比预计达9%-10% 2028年AI服务器的SSD需求占比将攀升至20% [2] - 未来国内市场将逐步用大容量QLC SSD替代HDD 推动存储产业从容量导向向性能与容量双优转型 [3] - 华为等技术突破与生态构建将加速AI存储产业成熟 [3] 基础设施现状 - 截至今年6月底 我国存力规模达1680EB 呈现区域梯次布局 单机架密度提升 闪存渗透率提高三大特征 [3] - 全国外置闪存占比超过28% 金融 制造 互联网三个行业渗透率超45% 存力建设迈向升级阶段 [3]
算力:从英伟达的视角看算力互连板块成长性 - Scale Up 网络的“Scaling Law”存在吗?
2025-08-21 23:05
行业与公司 * 行业聚焦于AI算力网络互连板块 特别是Scale Up网络技术及其带来的产业链机会[1] * 核心讨论围绕英伟达及其产品策略展开 同时涉及亚马逊、谷歌、Meta等公司的ASIC方案[5] * 产业链受益环节包括光纤、AEC(有源铜缆)、光模块(1.6T)、MPO、FU以及交换机厂商(如锐捷网络、博通、天弘、Arista等)[28][30] 核心观点与论据 * **Scale Up网络的定义与必要性**:Scale Up网络旨在实现跨机柜的大规模连接 将机柜当作积木连接 其核心驱动力是解决硬件内存墙问题并满足AI并行计算(尤其是专家并行和张量并行)的高通信需求[1][5][7][10] * **英伟达的推广策略**:通过两条路径推广 一是不断提高Nvlink带宽(每代产品单卡带宽基本翻倍) 二是扩大Up规模(如从H100升级到GH200时将MV8提升到MV256) 后因成本高和推理需求不足而推出更具性价比的NVO32方案[6] * **Scale Up相比Out网络的优势**:在超节点内能提供更高带宽 在英伟达系统中Up带宽是Out的九倍 未来随着规模扩大可能取代Out 实现AI网络统一连接[7][8] * **性能优势验证**:GB200使用FP4精度 在TPS(Token Per Second)为10时 其单卡性能比B200差三倍(两倍来自FP4 0.5倍来自Scale Up和Grace CPU);当TPS为20时 差距变为七倍(3.5倍来自Scale Up和Grace CPU) 表明网络通信压力增大时Scale Up优势更明显[4][14][15] * **更大规模网络的需求**:为满足单用户TPS增长和模型能力拓展(如多模态模型) 需要组建更大规模的Scale Up网络(如NVL576) 其规模扩大速度需快于性能指标增长速度[21][22] * **组网方式与技术选择**:更大规模网络需进行机柜间第二层连接 建议采用光纤和AEC(有源铜缆)而非PCB(柜内)和DAC(有效距离仅1米)[23][24] * **带来的增量需求**:在第二层网络中 一个GPU需要9个等效1.6T连接(传统IB架构仅需2-3个) 且每4个GPU需额外增加一台Nvlink交换机(传统IB架构每30-48颗GPU才需一台) 导致端口和交换机需求显著增长[4][25][26] 其他重要内容 * **内存墙概念**:分为模型内存墙和算力内存墙 指模型参数量和算力增速快于配套内存(如HBM)增速 需通过高速通信实现显存池化[1][10] * **并行计算范式**:包括数据并行、流水线并行、专家并行和张量并行 后两者对通信频率和数据大小要求更高[2][11][12][13] * **总拥有成本(TCO)分析**:GB200 NVL72方案的总硬件成本约为6.1万美金 比NVL576方案节省2万美金[18][19] * **技术路径排除**:CPO和OCS技术因故障率瓶颈和镇静频率问题 目前尚未能应用于Scale Up场景[27] * **市场认知差异**:市场普遍认为Scale Up仅限于柜内 但实际需要跨机柜连接以提升单卡性能有效利用率[29][30]
从英伟达的视角看算力互连板块成长性——Scale Up网络的“Scaling Law”存在吗? | 投研报告
中国能源网· 2025-08-20 15:47
核心观点 - AI算力发展面临"内存墙"问题及计算范式演进推动Scale Up网络升级 显著提升网络连接需求 [1][2][3] - Scale Up网络存在Scaling Law 柜间第二层网络将出现 光连接与AEC需求达芯片1:9配比 交换机需求达芯片4:1配比 较Scale Out网络倍增 [2][4] - 英伟达通过提升单卡带宽至7200Gb/s和扩大超节点规模持续扩大Scale Up网络 NVL72机柜方案将作为基础节点进一步扩展 [2] - 更大Scale Up网络可解决TCO 用户体验和模型能力拓展问题 单用户Token消耗增长推动单卡有效性能提升 [3] - 网络构建需柜间第二层Scale Up交换机 光与AEC并存 每颗GPU需9个额外等效1.6T连接 每4颗GPU需额外1台交换机 [4] Scale Up网络驱动因素 - 模型内存墙:单一大模型参数量与单卡显存差距逐代放大 [1][3] - 算力内存墙:单卡算力与单卡显存差距逐代放大 [1][3] - 计算范式演进:张量并行与专家并行对通信频次和容量要求跨越数量级 [3] 英伟达技术路径 - NVLink5.0单卡带宽达7200Gb/s [2] - 超节点规模从H100NVL8扩展到GH200/GB200 NVL72机柜方案可提高训推效率 [2] - NVL72将作为最小节点在柜间拼出更大Scale Up超节点 需光连接通信 [2] 规模扩展必要性 - 单用户每秒Token消耗量提高导致现有服务器单卡性能坍缩 [3] - 用户体验提升和模型能力拓展要求单用户TPS增长 [3] - Scale Up规模与预期单用户TPS 单卡实际性能间存在非线性Scaling Law [3] 网络构建方案 - 柜间搭建第二层Scale Up交换机 [4] - 光与AEC在第二层网络中并存 [4] - 单颗GPU需要9个额外等效1.6T连接 为Scale Out网络的3-4.5倍 [4] - 每4颗GPU需要额外1台交换机 为Scale Out网络的7.5-12倍 [4] 受益环节及标的 - 光互连:中际旭创 新易盛 天孚通信 光库科技 长芯博创仕佳光子 源杰科技 长光华芯 太辰光 [4] - 铜互连:中际旭创 兆龙互连 [4] - 交换机:锐捷网络 盛科通信 Astera Labs 博通 天弘科技 Arista [4]
一觉醒来,中国打碎美国关键科技封锁,迎来了扬眉吐气的一刻
搜狐财经· 2025-08-16 05:38
中国HBM技术突破的背景与意义 - 中国人工智能产业曾长期依赖进口高带宽内存(HBM)技术,2024年底HBM突遭出口管制导致高性能计算项目面临停滞风险 [1] - HBM是AI算力系统的关键组件,负责高速数据供应,其性能直接决定计算效率,被称为“隐形油箱”或“超级油箱” [3][5] - 传统内存技术存在“内存墙”问题,即计算核心性能进步远快于内存数据供应速度,导致计算效率大打折扣 [7][9] HBM技术特点与突破难点 - HBM通过多层内存芯片垂直堆叠和硅通孔(TSV)技术实现高速数据传输,大幅缩短数据传递距离并提供惊人带宽 [9][10] - 技术难点包括精密堆叠十几层芯片、数千个TSV微型通道的精准对齐以及堆叠后的散热防止芯片烧毁 [18][20] - HBM对人工智能大模型而言并非奢侈品而是必需品,直接影响AI系统的运行效率 [10] 技术突破过程与成果 - 2024年12月至2025年8月间,国内存储芯片企业联合封装测试厂、设备制造商和科研院所形成攻关联合体 [16][20] - 基于自主16纳米工艺的国产HBM3样品于2025年夏季研制成功,并送至下游头部企业验证 [22] - 中国成为全球第三个掌握HBM技术的国家,实现从零到一的决定性跨越,尽管在堆叠层数和峰值带宽上与国际最新HBM3E仍有差距 [22][24] 产业影响与战略意义 - 国产HBM为“东数西算”等国家级算力工程提供底层安全保障,减少对进口核心部件的依赖 [25] - 中国市场需求巨大,预计2025年将占全球HBM需求近三分之一,为技术迭代提供重要练兵场 [27] - 技术突破动摇了通过封锁遏制对手的战略根基,证明技术壁垒反而成为创新催化剂 [29]
突破\"内存墙\"瓶颈关键技术,CXL被存储巨头视为下一个战略高地
选股宝· 2025-06-20 07:36
CXL技术发展现状 - CXL互连技术正成为存储行业下一个战略高地,行业格局逐渐明朗化[1] - CXL联盟已吞并Gen-Z和OpenCAPI,成为主流互连标准并获得众多厂商支持[1] - 预计2025年更多CXL服务器设计推出,生态日益完善[1] CXL技术优势 - CXL技术旨在解决"内存墙"问题,提供更高数据吞吐量和更低延迟[1] - CXL延迟为10ns,显著低于PCIe的100ns延迟[1] - CXL支持内存一致性和可定义缓存地址空间,优于PCIe[1] - 通过计算和存储分离形成内存池,可动态配置内存资源提升效率[1] 市场前景预测 - 预计2028年全球CXL市场规模达150亿美元[2] - 目前不到10%CPU兼容CXL标准,预计2027年所有CPU都将兼容[2] - 预计2025年采用CXL接口的高端服务器内存条将量产[2] 行业参与者动态 - 澜起科技已发布全球首款CXL内存扩展控制器芯片(MXC)[2] - 佰维存储推出了CXL内存模组[2] - 澜起、IDT、Rambus等厂商已推出CXL产品[2]