内存墙
搜索文档
图解内存的“四大金刚”
半导体芯闻· 2026-04-10 18:08
文章核心观点 - 内存是各类计算设备的“刚需”和“大动脉”,为CPU/GPU等计算核心提供数据燃料,其需求广泛且种类多样,为不同应用场景深度定制 [2] - 当前从消费电子到AI服务器普遍面临“缺内存”的状况,AI大模型的兴起对内存性能提出了暴增的需求,并催生了如HBM等先进内存技术 [2][9] 内存类型与特性 - **DDR (双倍数据速率) 内存** - 是当前主流标准内存技术,以高速率、大容量为特点,是处理工作与娱乐的“全能型选手” [4] - 例如DDR5内存的传输速率可达8000MBPS,相当于一秒钟传输一部高清电影 [4] - 主要应用于台式机、笔记本电脑和服务器 [4] - 在消费市场衍生出多种形态:如带金属外壳的“马甲条”用于增强散热和外观;带LED灯的“灯条”满足个性化需求;采用优质芯片的“超频条”为追求极致性能的用户设计 [5] - **LPDDR (低功耗双倍数据速率) 内存** - 核心特性是低功耗与小体积,专为手机等移动设备设计,旨在实现极致省电和更长续航 [6] - 手机是其最主要的应用战场 [6] - **GDDR (图形用双倍数据速率) 内存** - 专为图形和并行计算设计,主打超高带宽和极致的传输速度,是处理海量图形纹理和计算数据的“特种兵” [7] - 主要应用于高性能计算卡、游戏主机和独立显卡,是游戏画面流畅与特效炫酷背后的关键 [7] - **HBM (高带宽内存)** - 是当前芯片界的“当红炸子鸡”和“工程奇迹”,采用将芯片垂直堆叠的先进封装方式 [9] - 其兴起主要源于AI大模型对内存性能的暴增需求,传统内存速度无法匹配AI计算单元,导致GPU“空转”的“内存墙”问题 [9] - HBM通过垂直堆叠极大提升了数据传输效率,并能与AI芯片封装在一起,缩短数据传输路径,完美匹配AI计算需求 [9] - 在AI芯片中,HBM紧密围绕在GPU核心计算单元周围 [9] 内存的应用场景与重要性 - 内存是支撑从日常消费电子到前沿AI计算的基础元件,用户与AI大模型的每一次交互,背后都需要数据中心内不计其数的内存芯片为AI芯片提供数据并进行繁忙计算 [10][11] - 各类内存(DDR, LPDDR, GDDR, HBM)本质都是DRAM内存芯片,但针对不同需求进行了深度优化,类比于不同用途的交通工具 [12]
SRAM,更难了
半导体行业观察· 2026-03-27 08:52
SRAM微缩困境与内存墙问题 - SRAM是所有计算系统的重要组成部分,但其容量和性能提升几乎停滞,未能跟上逻辑电路的扩展步伐,问题在过去五年中变得更加严重[1] - 自1990年起,内存容量和性能就被识别为未来处理能力发展的关键瓶颈,硬件架构通过使用SRAM作为缓存并辅以片外DRAM来回避,但这导致速度慢得多,形成“内存墙”[1][4] - 随着制程节点缩小,相同容量的SRAM占用芯片面积比例越来越高,制造商被迫更多依赖速度慢得多的外部存储器[4] SRAM微缩停滞的技术根源 - SRAM微缩停滞是因为传统的6T位单元达到了物理极限和工艺偏差极限,其读写需求存在固有冲突,访问晶体管与存储晶体管间的竞争需要仔细平衡[8] - 随着制程节点缩小,静电控制和随机波动成为主要制约因素,阻碍单元面积相应缩小,同时导线电阻和位线电容增加导致SRAM速度达到瓶颈,而供电电压Vdd在最近节点中几乎没有降低[8] - 在先进的2nm及以下制程,SRAM位单元密度提升幅度已降至不足15%,远低于65nm到5nm工艺迭代中经历的50%到100%的逐代缩小幅度[8] - 主要表现为存储器密度扩展速度落后于传统存储器,每平方毫米门数(Gate/mm²)的发展速度超过了每平方毫米兆字节数(MB/mm²),访问速度也因线路延迟和物理定律而受影响[8] 内存墙对计算性能的广泛影响 - 计算机或处理器的性能提升了近五个数量级,但内存带宽甚至没有提升100倍,导致计算机能处理的数据量与输入数据量之间存在超过1000倍的差距[9] - SRAM微缩问题将影响到所有领域,包括小型微控制器和微处理器,尤其是在人工智能向边缘应用发展的过程中,SRAM将占据芯片总面积的更大比例,影响芯片功能实现并推高成本[9] - SRAM扩展速度的放缓正处于系统架构的拐点,当内存密度增长放缓时,简单地增加缓存变得不经济[9] 对软件和人工智能的挑战 - 依赖于海量本地SRAM和多层快速缓存的处理器架构将受到最大影响,软件必须假定内存层次结构更复杂、速度更分散,局部性、分块、分区和流量可预测性变得更加重要[11] - 随着人工智能模型规模和上下文长度增长,内存带宽和片上缓存成为性能瓶颈,在LLM推理中键值缓存带宽尤为明显,软件必须优化数据局部性、内存感知调度、量化、稀疏性和内存分层[11] - 近期人工智能模型的算术强度远低于以往,意味着从内存到处理器的带宽需求更大[12] - 智能AI架构可将内存管理推入离线编译器,调度显式的代码驱动的DMA传输,构建无需数据缓存的推理处理引擎,从而将SRAM设计挑战限制在关键的CPU子模块中[11][12] 3D集成与Chiplet解决方案 - SoC设计人员正在探索解耦方案,将少量关键SRAM(如L1/L2/L3缓存)放置在最先进工艺节点的芯片上,而将更大容量的SRAM(如L4)放置在更早工艺节点的芯片上,以降低成本[13] - 更快的芯片间通信链路和更小的互连间距,使得多存储器层次结构的集成更加容易,从而在合理的延迟影响下降低成本[13] - 基于3D和芯片组的SRAM目前由于封装成本高、散热复杂且标准化程度有限,仅适用于高端AI/HPC芯片[13] - Chiplets提供了一种以更低功耗实现更高带宽的解决方案,是打破性能瓶颈的途径[13] 新兴内存技术与架构演进 - 新兴内存技术如MRAM和ReRAM,可以增强而非取代L1/L2缓存中的高性能SRAM,它们有望取代某些控制器、MCU和加速器中的嵌入式存储器[16] - 内存计算或近内存计算是人工智能的发展方向,意味着传统围绕庞大计算引擎从靠近内存处提取数据的模型将发生变化[15] - 高带宽内存(HBM)显著提升了DRAM带宽,若将其底层芯片的工艺升级为针对逻辑电路优化的工艺,则可以支持更多功能并实现更高性能,例如在HBM基片和GPU之间实现更高带宽的芯片间接口[16][17] - 在SRAM扩展不再自动的时代,架构效率成为关键,通过智能地管理缓存位置和流量行为,可以在不成比例增加SRAM面积的情况下提升内存容量和带宽[17] 行业结论与未来方向 - 内存瓶颈日益凸显,SRAM扩展不太可能重现昔日的辉煌,必须寻找替代方案[18] - 3D堆叠技术可能会变得更加普及,尤其是在价格下降的情况下[18] - 目前没有万全之策,如果高速内存成为计算能力的瓶颈,那么计算就必须更有效地利用现有内存[18]
国产算力破局!资本狂砸 3D 芯片!市场空间多大?
是说芯语· 2026-03-02 20:54
文章核心观点 - 3D AI推理芯片创新企业算苗科技在4个月内完成两轮融资,累计募集资金近10亿元,标志着3D堆叠芯片技术获得资本市场深度认可,公司成为国产算力赛道新晋黑马 [1] - 随着AI大模型规模化落地推动推理算力需求爆发,3D算力芯片凭借突破“内存墙”的技术优势,正成为全球算力产业从“替代跟随”向“引领创新”跃迁的核心方向,产业发展迎来全新阶段 [1] 3D算力芯片技术价值与优势 - “内存墙”是制约AI算力释放的核心瓶颈:过去20年芯片计算能力增长6万倍,内存带宽仅增长100倍,互连带宽仅增30倍,英伟达H100跑AI推理时甚至有70%计算单元因等待数据空转 [2] - 与传统2D/2.5D IC相比,3D IC通过垂直高密度堆叠实现极致内存带宽与集成密度,算苗科技的3D TokenPU架构是典型应用 [3] - 算苗科技3D DRAM带宽达32TB/s,是英伟达B200的4倍,其首款芯片A4在主流开源大模型上的推理吞吐量达到英伟达H200的1.26-2.19倍 [3] - 算苗科技采用12nm工艺实现了对台积电4nm工艺产品的性能超越,单价低30%同时毛利率超60%,契合AI产业对“高性能+低成本”算力的核心需求 [3] AI驱动下的市场与产业趋势 - 生成式AI带来指数级算力需求,驱动先进封装市场规模高速扩张:2025年全球先进封装市场规模约571亿美元,预计2028年将达786亿美元,年复合增长率11.24% [7] - 2.5D/3D封装技术是先进封装核心方向,其市场规模2022-2028年复合增速达18.7%,占比将从21%提升至33% [7] - 2025年成为全球推理算力爆发元年,中国推理算力市场规模达438.5亿元,年均复合增长率66.3%,2028年将突破2931亿元,全球市场达千亿美金级别 [7] - 政策支持为产业提供红利:在“东数西算”“人工智能+”战略推动下,国内对自主可控AI芯片需求激增,北京等地对相关产业给予最高30%的投资补贴 [9] 国际竞争格局与巨头动态 - 3D算力芯片已成为全球半导体企业必争之地,形成“巨头领跑技术迭代,本土企业聚焦场景突破”的竞争格局 [10] - 英伟达新一代AI计算平台NVIDIA Rubin通过技术创新实现推理性能5倍提升,背后是3D封装技术对芯片集成效率的优化 [10] - AMD在CES 2026发布的Instinct MI455X GPU整合了12个2纳米和3纳米制程的Chiplet,通过下一代3D芯片堆叠技术实现3200亿晶体管高密度集成,并提出四年内实现AI性能1000倍提升的目标 [10] - 谷歌在其第七代TPU“Ironwood”中融入3D互连技术,聚焦推理场景的能效优化 [11] 国产企业进展与产业链协同 - 以算苗科技为代表的国内企业正凭借架构创新、本土化场景适配与全产业链国产化优势实现弯道超车 [12] - 算苗科技与长鑫存储、中芯国际、兆易创新等顶级3D IC产业伙伴携手,构建自主可控的产业链体系 [12] - 云天励飞聚焦大算力推理芯片,提出“GPNPU=GPGPU+NPU+3D堆叠存储”的架构公式,深度研发3D堆叠存储技术以提升推理能效 [12] - 盛合晶微作为国内晶圆级先进封装龙头企业,已实现2.5D封装规模量产,并募资布局三维多芯片集成封装项目,为3D算力芯片量产提供关键封测支撑 [12] - 长电科技、通富微电等封测企业持续加码3D IC技术,完善国产3D算力芯片产业链配套 [12] - 产业链形成深度协同:算苗科技与云天励飞位于上游芯片设计环节,是“架构定义者”;盛合晶微、长电科技与通富微电位于中后道先进封测环节,是“物理实现者”,它们之间是上下游协同伙伴关系 [14] - 算苗科技与盛合晶微的合作是“设计架构创新”与“封装工艺落地”的典型闭环,印证中国3D算力芯片产业已具备从概念到量产的完整闭环能力 [14] 国产企业的核心优势与未来竞争焦点 - 国产3D算力芯片企业的核心优势在于深度契合国内AI应用场景,能精准把握场景化算力需求打造高性价比定制化解决方案 [15] - 国内企业摆脱对海外先进制程依赖,以成熟制程结合3D架构创新实现性能突破,大幅降低研发与量产成本,形成差异化竞争优势 [15] - 未来竞争与发展将围绕技术迭代、量产能力与生态构建三大核心展开 [16] - 技术迭代重点包括混合键合、超精细互连、Chiplet与3D堆叠的融合,追求更高带宽密度、更低传输延迟、更大存储容量 [16] - 量产层面的良率提升与成本控制是企业规模化落地关键,国内封测产业的技术突破与产能扩张将为量产奠定基础 [16] - 生态构建需要软件与硬件协同优化、产业链上下游深度融合,构建自主可控的全产业链体系 [16]
一家水下AI芯片公司完成10亿元融资,瞄准大模型推理
暗涌Waves· 2026-02-13 08:57
公司近期发展与融资情况 - 算苗科技在四个月内连续完成两轮累计规模近10亿元人民币的融资 [2][3] - Pre-A轮融资由源码资本、石溪资本联合领投,联想创投等多家半导体核心产业方跟投 [3] - Pre-A1轮融资由襄禾资本领投,并获国开金融、北京顺禧等国资背景资本加持 [3] - 募集资金将用于100%国产化3D算力芯片的研发和量产 [3] 公司技术与产品核心 - 公司长期专注于3D算力芯片研发,核心产品是AI大模型推理3D定制化芯片 [4] - 公司旨在通过计算机体系结构创新和3D IC供应链解决AI大模型计算的“内存墙”制约 [4] - 现有AI芯片在推理时,高达70%的计算单元因等待数据搬运而空转,过去20年计算能力增长60000倍,内存带宽仅增长100倍 [4] - 公司研发的3D DRAM带宽可达到32 TB/s,相当于英伟达B200的4倍 [4] - 公司芯片A4的仿真数据显示,在Llama和Mixtral等主流开源大模型上,其推理吞吐量(tokens/s)能达到英伟达H200的1.26倍到2.19倍 [5] - 公司采用12nm工艺的3D架构芯片,通过将内存芯片堆叠在计算核心上并修建垂直通道,实现16-32 TB/s的带宽,以专用芯片设计换取极致推理性能 [12][13] 市场定位与战略选择 - 公司战略聚焦于AI大模型推理芯片,而非训练芯片 [15] - 从市场角度看,未来90%的AI算力需求将发生在推理侧,大模型推理算力需求将远大于训练算力 [15] - 大模型训练终将收敛,推理的成本(TCO)将成为唯一考量,这是ASIC芯片擅长的战场 [15] - 公司认为大模型推理在全球是个千亿美金的算力市场,在中国则是数千亿人民币的市场,且快速增长 [19] - 公司不做GPU,专注于3D芯片的研发、量产和全球销售,并已在该领域投资十多亿人民币 [20] - 公司相信3D芯片代表计算的未来,ASIC是解决大模型推理计算的正确路径,GPU只是过渡 [20] 创始人背景与团队构成 - 创始人汪福全曾是中科院声学所国家重点实验室博士、研究员,师从张仁和院士,后进入中科院计算所从事博士后工作,合作导师为“龙芯”首席科学家胡伟武 [5] - 公司核心科学家大多毕业于中科院计算所、声学所、自动化所以及清华等高校,团队包括半导体行业创业老兵和微软亚洲研究院的前沿AI研究员 [5] - 创始人于2009年创办中科声龙,围绕龙芯进行产业化探索,后于2018年关停相关业务,带领团队进入加密算力芯片领域 [6] - 在加密算力领域,团队选择挑战以太坊算力芯片,并于2021年第四季度推出JASMINER X4芯片,用40nm工艺实现了比英伟达7nm旗舰显卡高出20倍的加密算力功耗比,在以太坊转向POS前一年带来8亿元收入 [8] 技术发展路径与竞争优势 - 公司技术起源于攻克以太坊“抗ASIC”共识算法(ethash)带来的内存带宽瓶颈,最终在2019年底锁定3D堆叠架构 [7][8] - AI大模型计算与以太坊挖矿有相似的内存瓶颈,团队已验证3D堆叠是解决此类问题的最佳现实方案 [8] - 公司认为其生存发展的关键是“AI大模型时代,计算范式跃迁带来的新机遇” [8] - 英伟达因需维护CUDA生态和通用GPU架构的兼容性,其硬件创新受制约,而创业公司可基于第一性原理进行ASIC定制化设计,这是公司的机会 [14] - 创始人认为,在需要极致效率、具象思维的ASIC专用芯片领域,中国工程师擅长“在螺蛳壳里做道场”的精耕细作,加密算力芯片的历史已证明中国公司能称雄,AI推理战场历史会重演 [17] - 公司携手供应链伙伴,开创了中国3D堆叠芯片领域,并已在全球范围内初步形成显著优势 [20] 公司理念与行业展望 - 公司很少提“国产替代”,因其目标是成为具有国际竞争力的芯片公司,为全球AI大模型计算贡献中国优势的全新解决方案 [9] - 创始人的底气来自团队在3D IC领域多年的研发经验,以及在加密算力市场大规模商业化的成功实践 [9] - 创始人认为中国芯片产业的前途在于市场化力量,中国技术的市场化力量被严重低估 [22] - 公司在加密算力全球市场的极限生存训练,历练了团队并与国内3D IC核心供应链伙伴共同发展 [24] - AI算力在未来将像水电气一样成为新时代的基础设施,AI时代核心竞争力在于算力,算力的未来在于架构创新 [28] - 公司坚信3D堆叠架构和ASIC极致优化的设计理念,在未来5-10年内是AI大模型算力的最优解 [28]
一家光芯片公司,获2.2亿美元融资
半导体芯闻· 2026-02-12 18:37
公司融资与估值 - 英国初创公司Olix Computing已完成2.2亿美元融资,由比利时风投机构Hummingbird Ventures领投 [1] - 本轮融资完成后,公司估值超过10亿美元,成为独角兽企业 [1] - 公司此前曾获得Plural、Vertex Ventures、LocalGlobe及Entrepreneurs First等机构的融资 [1] 核心技术:光学AI芯片 - 公司正在研发集成光学组件的人工智能芯片,名为OLIX光学张量处理器 [3] - 该芯片针对AI推理进行优化,旨在解决“内存墙”技术难题 [2] - 芯片采用“创新型内存与互联架构”,利用光子组件构建互联模块,以在电路间传输数据 [1] - 光学互联技术核心优势在于光的传输速度远高于电信号,理论上可实现更高带宽和更低功耗 [2] 内存架构设计 - 公司芯片设计不使用HBM,仅使用SRAM存储数据 [2] - SRAM采用6晶体管结构,直接集成在AI芯片内部,相比独立的HBM模块,数据传输延迟更低 [3] - 公司宣称其光子技术在交互性与延迟方面优于“纯硅基SRAM架构” [3] - 初创公司Cerebras Systems在其晶圆级AI加速器中也优先采用SRAM架构,集成44GB SRAM [3] 产品与研发进展 - 芯片预计明年开始向客户交付 [4] - 公司正在开发编译器,用于将现有AI模型适配到自家芯片上运行 [4] - 公司将利用新融资推进芯片研发 [4] 行业背景与竞争 - 目前已有多家初创企业在研发光子互联技术,其中融资规模领先的Ayar Labs已开发出光学中介层 [2] - Ayar Labs的技术可用于打造面积达40平方厘米的芯片,超过英伟达Blackwell B200显卡的两倍以上 [2] - 谷歌的张量处理器同样为AI模型设计,将张量优化核心与标量、向量处理单元相结合 [3]
光子AI芯片初创公司Olix获得2.2亿美元投资
搜狐财经· 2026-02-12 17:16
公司融资与估值 - 英国初创公司Olix Computing Ltd近日获得2.2亿美元融资 [2] - 本轮融资由比利时风险投资公司Hummingbird Ventures领投,公司估值超过10亿美元 [2] - 公司此前曾获得Plural、Vertex Ventures、LocalGlobe和Entrepreneurs First的投资 [2] 核心技术:光子互连与架构 - 公司开发集成光学组件的人工智能芯片,专为AI推理任务优化 [2] - 芯片采用“新颖的存储和互连架构”,使用光子组件驱动互连部分 [2] - 光学互连传输速度比电信号更快,理论上可提供显著更高的吞吐量,同时功耗更低 [2] - 行业内多家初创公司正在开发光子互连技术,例如Ayar Labs Inc已构建出可用于制造表面积达40平方厘米芯片的光学中介层 [2] 核心技术:解决“内存墙”问题 - 公司处理器旨在解决“内存墙”技术挑战,即AI芯片因HBM外部存储器性能瓶颈而无法全速运行 [3] - 芯片设计通过完全不使用HBM来解决此问题,仅采用速度显著更快的SRAM存储数据 [3] - SRAM直接集成到AI芯片中,更接近主芯片晶体管,从而减少数据传输时间 [3] - 公司声称其光子技术在交互性和延迟方面优于“纯硅SRAM架构” [3] 产品与开发计划 - 公司芯片被称为OLIX光学张量处理单元(OTPU),包含专门优化处理张量的电路 [4] - 芯片可能还包含针对张量以外工作负载(如内存管理)优化的电路 [4] - 公司将使用新筹集的资金支持芯片开发,并正在开发一个编译器以调整现有AI模型在其芯片上运行 [4] - 据《金融时报》报道,公司预计明年开始向客户发货OTPU芯片 [4][5]
DRAM危机,短期无解
半导体行业观察· 2026-02-11 09:27
文章核心观点 - 人工智能数据中心对高带宽内存的庞大需求正导致DRAM市场出现严重短缺和价格飙升,这种供需失衡源于DRAM行业固有的强周期性与AI基础设施超大规模建设的碰撞,预计新增产能和技术进步需要数年才能匹配需求,且价格可能长期保持高位 [2][8][17] 行业现状与供需矛盾 - 本季度DRAM价格已上涨80%至90%,主要受AI数据中心GPU对HBM的旺盛需求驱动,这挤占了其他用途的内存供应 [2] - DRAM行业具有强周期性,新建晶圆厂成本高达150亿美元甚至更多,且建设周期长达18个月以上,导致产能调整严重滞后于需求变化 [8] - 行业在2022-2023年经历衰退后,公司对扩大产能持谨慎态度,2024年和2025年大部分时间几乎没有新产能投资 [9] - 当前AI数据中心建设热潮与前期投资匮乏形成尖锐矛盾,全球有近2000个新建数据中心在规划或建设中,若全部建成将令全球数据中心供应量增长20% [12] 高带宽内存的技术与市场 - HBM是一种3D堆叠DRAM技术,通过堆叠多达12个超薄DRAM芯片并与GPU紧密集成,旨在突破AI计算中的“内存墙”瓶颈 [5][6] - HBM成本通常是其他类型内存的三倍,占GPU总成本的50%甚至更多 [6] - HBM在DRAM制造商收入中占比迅速提升,以美光为例,其HBM及云相关内存收入占比将从2023年的17%增至2025年的近50% [14] - HBM市场总规模预计将从2025年的350亿美元增长至2028年的1000亿美元,这一数字将超过2024年整个DRAM市场的规模 [14] 主要厂商动态与市场影响 - 英伟达是AI数据中心热潮的最大受益者,其数据中心业务收入从2019年第四季度的不足10亿美元飙升至2025财年第四季度的510亿美元 [12] - 最新的AI服务器GPU(如英伟达B300、AMD MI350)普遍使用8个或12个芯片的HBM,进一步推高HBM需求 [12] - 主要DRAM制造商(美光、三星、SK海力士)正在建设新晶圆厂,但投产时间多在2027年及以后,短期内无法缓解供应紧张 [17] - 行业预计到2028年之前供应紧张局面都不会好转 [17] 未来供应、技术与价格展望 - 增加DRAM供应的途径包括现有领先企业逐步扩产、先进封装工艺良率提升以及供应链多元化,新建晶圆厂作用相对较慢 [17] - 未来HBM技术(如HBM4)可能堆叠多达16个甚至20个DRAM芯片,这将进一步增加对硅片(DRAM芯片)的消耗 [18] - 即便新工厂投产,由于计算需求旺盛,DRAM价格下降的速度和幅度预计将远低于其上涨过程,价格可能长期居高不下 [18]
这种芯片将突破内存壁垒
半导体行业观察· 2026-02-10 09:14
文章核心观点 - 加州大学圣地亚哥分校的研究团队开发了一种全新的“体电阻式随机存取存储器(RRAM)”技术,通过摒弃传统的丝状结构,实现了在内存中进行计算,有望突破人工智能的“内存墙”瓶颈 [2][3] 技术原理与创新 - 传统丝状RRAM通过在介电材料中形成低电阻细丝存储数据,但需要过高电压、过程充满噪声且随机,不利于与处理器集成和3D堆叠 [3] - 新开发的体RRAM技术摒弃了细丝,使整个材料层在高阻和低阻状态间切换,避免了高压形成步骤和对器件几何形状的限制 [3] - 该技术将RRAM器件尺寸缩小至40纳米,并成功堆叠多达八层,形成三维电路 [4] - 施加单一电压脉冲可使八层堆叠单元实现64种不同的电阻状态,且堆叠单元电阻值达到兆欧级,优于传统千欧级限制,更利于并行运算 [4] 性能测试与应用前景 - 研究团队将多个八层堆叠组装成1千字节的无选择器阵列,并使用持续学习算法进行测试,对可穿戴传感器数据分类的准确率达到90%,性能与数字实现的神经网络相当 [5] - 该技术特别适用于边缘设备上的神经网络模型,使其能在不连接云端的情况下从环境中持续学习 [5] - 任何能让模型直接在内存上运行的技术都可能成为解决传统内存无法满足大型模型增长需求这一瓶颈的捷径 [6] 行业评价与潜在挑战 - 行业专家认为,将RRAM集成到阵列中是重大进步,任何集成方面的进步都非常有用 [5] - 潜在的挑战在于数据长期保存能力,尽管在室温下可保存数据数年(与闪存相当),但在设备实际运行的高温环境下,其数据保存能力尚不确定 [5]
中国推理芯片突围与成本革命:破“内存墙”、兼容CUDA
21世纪经济报道· 2026-02-04 17:09
行业趋势与共识 - 全球AI算力重心正从训练加速转向推理,未来五到十年推理芯片将主导AI演进方向 [1] - 行业核心需求从依赖GPU、CUDA生态构建的“绝对算力”,转向对高性价比推理芯片的迫切需求 [2] - 推理芯片的增长已超越训练芯片,Groq估值在2025年9月至2026年1月四个月内从70亿美元飙升至200亿美元,增长近3倍 [3] - 谷歌在2025年4月发布第七代TPU “Ironwood”,明确将其定位为面向推理时代的基石 [1] - 英伟达以200亿美元的代价,实质上整合了Groq最核心的资产,包括其创始团队、核心技术人员,并获得其IP的永久授权 [2] 公司战略与目标 - 云天励飞在2025年果断将芯片战略全面聚焦于云端大算力、大模型专用的推理芯片 [3] - 公司致力于通过底层架构创新,力争实现百万Tokens推理成本降低100倍以上的目标 [1] - 公司目标是每年将百万Token的推理成本降低100倍,到2030年实现“百亿Token仅需一分钱人民币”的成本水平 [3] - 未来五年,公司将全力打磨并推广DeepVerse 100、200、300系列芯片,覆盖互联网、通信运营商及各行业头部客户 [6] 技术架构与创新 - 公司正在打造专为大模型推理优化的新型处理器架构GPNPU,其核心公式为“GPNPU = GPGPU + NPU + 3D堆叠存储” [5] - GPNPU架构致力于解决可迁移、可部署、可持续降本三大工程难题 [5] - 在通用生态层面,GPNPU能够实现一行代码完成CUDA程序兼容,以降低迁移成本 [5] - 针对“内存墙”瓶颈,公司正深度研发3D堆叠存储及更前沿的互连技术,以提升带宽与能效 [5] - 在架构工程上,公司采用“算力积木”架构,通过Chiplet扩展与互连思路,实现算力按需扩展 [6] 市场机遇与竞争格局 - 在推理芯片领域,格局尚未成型,谷歌TPU v7、Groq等新兴架构刚刚崭露头角,这为中国企业提供了历史性窗口 [4] - 中国在AI应用场景丰富度与落地速度上全球领先,但在模型层与芯片层仍相对落后,意味着巨大的追赶与超越空间 [3] - 公司认为中国应在训练芯片领域持续追赶,在推理芯片领域依托丰富的应用场景、强大的基建能力及开源模型生态实现弯道超车 [5] 公司核心竞争力与保障 - 公司将核心竞争力总结为技术、产能、生态、市场、资本五大关键要素的协同共振 [6] - 公司是目前国内屈指可数手握充足国产产能保障的企业之一,为芯片大规模量产与交付提供了确定性 [6]
100根内存条换一套房,AI疯狂吞噬全球内存,普通人电脑快买不起了
36氪· 2026-01-20 15:22
核心观点 - AI行业的高速发展正遭遇“内存墙”瓶颈,即内存容量与带宽的严重短缺成为制约算力发挥和行业进步的关键因素[1][2] - DRAM等存储芯片因AI数据中心需求激增而价格暴涨,严重挤压了消费电子市场的供给,导致PC、手机等产品面临成本上升和体验停滞[5][8] - “内存墙”问题不仅推高了硬件成本,更在能耗、延迟和AI模型创新速度上对行业发展构成了根本性挑战[13][17] 行业现状与价格趋势 - 2025年下半年起,存储芯片价格全面飙升,DDR5颗粒现货价自2025年9月以来累计上涨约307%[6] - 高容量服务器内存价格极高,单条顶配价格突破4万元人民币,100根总价达400万元人民币[1][6] - 花旗银行预测2026年DRAM平均售价同比将上涨88%,大幅高于此前53%的预期[2][8] - TechRadar预测DRAM价格在2026年3月将接近翻倍,且PC DRAM合约价在2026年初可能明显上调[3][10] - 行业预测显示,DRAM价格在上涨后将在更高区间企稳,廉价充裕的内存时代已告终结[19] 供需失衡与市场影响 - AI服务器内存需求显著高于普通服务器,叠加HBM和高容量DDR5的产能倾斜,大量吸走了原本分配给PC和手机的产能[5] - OpenAI、谷歌等AI巨头以“价格不设上限”的方式疯狂扫货并提前锁定2026年产能,导致消费级市场供给枯竭[5] - 存储巨头美光(Micron)的CEO警告,新产能仅能满足客户需求的二分之一到三分之二[9] - PC端供应商开始选择性配货,优先保障大型整机厂OEM,压缩对第三方模组厂商的供货[10] - 分析师和行业人士已采取行动避险,例如TrendForce资深研究副总裁已提前购买iPhone17[9] “内存墙”的技术瓶颈 - 训练大模型所需的计算量以每两年750倍的速度增长,远超DRAM带宽(每两年增长1.6倍)和互连带宽(每两年增长1.4倍)的增长速度[13] - 过去20年,芯片算力峰值提升60000倍,但DRAM带宽仅提升约100倍,互连带宽增长约30倍,极度不匹配[13] - 在AI推理场景中,内存已成为主要瓶颈,导致昂贵的GPU算力因等待数据而经常处于闲置状态[14] - 训练大模型需要3到4倍于参数量的内存,数据搬运速度慢于计算速度,主导了大型语言模型的运行延迟[14] “内存墙”引发的连锁问题 - **能耗问题**:在冯·诺依曼架构下,数据在内存与处理器间搬运的能耗,在某些情况下可能远高于计算本身,甚至达到百倍量级,造成巨大能源浪费[17] - **延迟与体验**:内存带宽限制导致像ChatGPT处理长文本时变慢变卡,影响了用户体验[17] - **创新速度**:若无法突破“内存墙”,更大参数量的AI模型将难以在合理时间和成本内完成训练,从而减缓AI创新的整体速度[17] 突破“内存墙”的技术路径 - **HBM(高带宽内存)**:采用硅通孔技术将DRAM芯片垂直堆叠,像“摩天大楼”一样直接连接处理器,以提供极高带宽,这是目前最直接但昂贵的方案[18] - **CXL(计算高速互连协议)**:建立“内存池”,让CPU和GPU共享内存,打破单机容量限制,提高资源利用率[18] - **PIM(存内计算)**:让内存自身具备计算能力,实现数据在哪里就在哪里计算,从根本上消除数据搬运的能耗和延迟问题[18]