Workflow
DDR DRAM
icon
搜索文档
芯片短缺危机
半导体行业观察· 2026-03-13 09:53
AI计算需求与代币需求激增 - AI模型能力提升和智能体工作流程快速发展,推动用户采用率和代币总需求激增 [3] - 仅2025年2月,Anthropic新增高达60亿美元的年度经常性收入,主要得益于Claude Code的广泛应用 [3] - 尽管过去几年AI基础设施建设规模庞大,但可用的计算资源仍然稀缺,按需GPU价格持续上涨 [3] 超大规模云服务商资本支出与供应紧张 - 超大规模云服务提供商的所有可用小型集群资源均已被牢牢锁定 [3] - 供应紧张局面导致超大规模云服务提供商资本支出计划大幅上调,普遍预期已大幅上调 [3] - 谷歌2026年的资本支出预期几乎是此前预期的两倍,主要由于数据中心和服务器支出增加 [3] 硅芯片供应成为关键制约因素 - 超大规模数据中心运营商投入更多资金受到硅芯片供应的制约 [5] - 先进的逻辑和存储器制造能力不足以支撑计算部署的步伐,行业已彻底进入硅芯片短缺阶段 [5] 台积电N3工艺产能紧张 - 台积电N3逻辑晶圆产能是制约N3技术发展的最大因素之一 [8] - N3技术初期需求主要来自智能手机和PC领域,起步并不顺利 [8] - 到2026年,所有主流AI加速器系列都将过渡到N3,届时AI将成为N3需求的主要来源 [10] - NVIDIA将从Blackwell的4NP工艺节点过渡到Rubin的3NP工艺节点 [10] - AMD已在MI350X中采用N3工艺,MI400的AID和MID芯片也将继续使用N3工艺 [11] - 谷歌TPU路线图从TPU v7开始全面转向N3E工艺,TPU今年的程序量将大幅增长 [11] - AWS将在Trainium3中过渡到N3P工艺节点 [11] - Meta的MTIA也遵循类似路径,但其程序量要低得多 [11] N3需求结构转变与产能分配 - 2025年,人工智能相关应用(加速器、主机CPU和网络N3芯片)的需求将占N3芯片总产量的近60% [18] - 剩余的40%主要用于智能手机和CPU,这些领域的需求已完全占用N3芯片的全部产能 [18] - 预测到2027年,人工智能需求将占N3芯片总产量的86%,几乎完全挤占智能手机和CPU芯片的产能 [18] - 到2026年,人工智能基础设施客户的优先级明显高于消费电子产品客户 [21] - 人工智能加速器的设计通常需要更大的芯片尺寸和更复杂的封装,意味着更高的平均售价 [21] - 人工智能驱动的需求是台积电增长的主要动力,终端客户愿意不惜一切代价部署更多计算资源 [21] 台积电产能扩张与限制 - 由于需求远超供应,台积电正在扩大产能并使其现有生产线达到极限 [23] - 预计到2026年下半年,N3工艺的有效利用率将超过100% [23] - 台积电也受到洁净室空间的限制,必须先建造额外的可用晶圆厂面积才能安装设备并投产新产能 [23] - 未来两年内,台积电无法新增足够的产能来完全满足市场需求 [23] 智能手机需求作为潜在产能释放阀 - 2025年智能手机是N3晶圆需求的第二大驱动力 [26] - 如果智能手机需求疲软,可能释放出XPU逻辑芯片的产能 [26] - 若将2026年智能手机N3晶圆总开工量的5%(43.7万片晶圆的5%)重新分配给AI加速器,可额外生产约10万颗Rubin GPU或约30万颗TPU v7 [26] - 在更极端情况下,若将25%重新分配,则可额外生产约70万颗Rubin GPU或约150万颗TPU v7 [27] 内存(DRAM/HBM)成为下一个主要制约因素 - 随着芯片供应商和超大规模数据中心竞相确保加速器生产所需的DRAM供应,内存已成为下一个主要竞争领域 [28] - DRAM晶圆总产能持续增长,但新增产能大部分被HBM吸收,有效地挤占了普通DRAM的市场份额 [28] - 按每比特晶圆消耗量计算,HBM的晶圆产能约为普通DRAM的三倍,随着行业向HBM4过渡,这一差距可能会扩大到近四倍 [28] - HBM位出货量正经历急剧变化,主要由单个设备的内存容量提升驱动 [32] - 对于NVIDIA,从Blackwell到Blackwell Ultra和Rubin的升级使HBM容量提升了50%,而Rubin Ultra又进一步提升了约4倍 [32] - 超大规模ASIC芯片上,TPU v8AX和Trainium3也从上一代的8-Hi堆栈升级到了12-Hi堆栈 [32] - AMD的内存容量也从MI350到MI400提升了50% [32] HBM性能要求与供应限制 - 客户对更高HBM引脚速度的需求日益增长,如NVIDIA致力于将HBM4的引脚速度提升至约11 Gb/s [34] - 内存厂商要以可接受的良率实现这一目标仍然十分困难,进一步限制了HBM的有效供应 [34] 服务器DRAM需求增长 - NVIDIA下一代平台的AI服务器系统内存将大幅增长,VR NVL72机架的DDR内存容量将是Grace的三倍 [36] - Vera CPU的DDR内存容量为1536GB,而Grace CPU的DDR内存容量为512GB [36] - 预计2026年DRAM的整体位需求也将出现增长,随着老旧的云服务器和企业服务器进入多年更新换代周期 [36] - AI工作负载正在推动CPU需求,并逐步提高CPU与GPU的比例 [36] 内存供应重新分配与激励 - 为了激励更多HBM晶圆投入生产,客户可能需要支付高于当前合同价格的额外费用才能确保HBM的供应 [38] - 将部分内存从消费级应用重新分配到服务器和HBM是关键影响 [38] - 在消费级设备出货量下降50%的极端情况下,将释放约553.9亿Gb的内存,相当于2026年DRAM总需求的约14% [38] - 在出货量下降25%的情况下,将释放约276.9亿Gb的内存,约占DRAM总需求的7%,以及2025年HBM需求的近80% [38] - 基本预测是消费级内存出货量将出现较为温和的10-15%的下滑 [39] - 如果出货量减少10%,则大约会释放110.76亿Gb的容量,仅占DRAM总需求的约3% [39] CoWoS封装限制缓解 - 前端产能是目前主要瓶颈,CoWoS的限制有所缓解 [42] - 台积电在进行产能规划时以N3限制为依据 [42] - 2.5D封装还有其他选择,CoWoS可以外包给OSAT厂商,例如ASE/SPIL和Amkor [42] - 英特尔的旗舰级EMIB 2.5D先进封装解决方案也是一个日益受到关注的选择 [42]
复盘HBM的崛起
半导体行业观察· 2025-08-13 09:38
HBM技术优势与特性 - HBM在带宽、密度和能耗之间实现最佳平衡,适用于AI工作负载,结合垂直堆叠DRAM芯片与超宽数据路径[4] - HBM带宽显著高于其他内存类型,HBM3带宽达819.2 GB/s,远超DDR5的70.4 GB/s和GDDR6X的96.0 GB/s[6] - HBM需通过2.5D封装(如CoWoS)实现高布线密度,因I/O数量超1,000条,PCB或基板无法满足要求[6] - HBM直接放置于计算引擎海岸线附近以降低延迟和能耗,但受限于SOC边缘布局,需垂直堆叠提升容量[7] - HBM制造需TSV工艺和凸块处理,导致芯片尺寸大于DDR,位密度较低(HBM3为0.16 Gb/mm² vs DDR4的0.296 Gb/mm²)[7] HBM市场需求与竞争格局 - AI加速器需求推动HBM比特需求大幅增长,NVIDIA预计2027年占据最大份额,其Rubin Ultra单GPU容量达1 TB[8] - Broadcom(TPU/MTIA)、OpenAI、SoftBank和亚马逊成为HBM主要客户,亚马逊直接采购以降低成本[8] - HBM产能转换依赖TSV和凸块工艺增量步骤,需蚀刻机、沉积工具和光学检测设备支持[10] - HBM封装技术中MR-MUF提供更高生产率和散热性能,海力士专有材料优于美光三星的非导电薄膜[13][14] - 封装工艺效率提升,批量回流焊和单次包覆成型比TC-NCF更高效[18] HBM制造挑战与良率问题 - HBM良率受3DIC堆栈复杂度影响,前端良率问题突出,电源分配网络(PDN)设计是关键挑战[19] - 海力士HBM3E通过全方位电源TSV将TSV数量增近6倍,电压降降低最高75%[20] - 美光专注TSV和电源网络,宣称功耗降低30%[22] - HBM故障是GPU故障主因,散热问题显著,所有制造商良率均低于传统内存[24] - 堆叠层数增加导致良率下降(8层99%良率→92%总良率,12层→87%),键合精度需亚微米级[24][25] - 键合设备商Hanmi早期垄断HBM市场,但供应链争端曾威胁SK海力士生产[25][27] HBM技术演进与未来方向 - HBM堆叠高度受JEDEC标准限制(当前720μm),增加层数需更薄芯片和凸块间隙,良率挑战增大[27] - 混合键合(HB)可消除凸块间隙,支持更多DRAM层,但良率和成本挑战高,量产仍需时间[28] - JEDEC将堆叠高度放宽至775μm,延缓HB采用,更高堆叠需逻辑芯片加厚或中介层调整[29] - HBM4的HB应用讨论转向4E,三星最积极推广,海力士美光更谨慎[32] - AI加速器需高带宽支持并行计算,HBM扩展通过三维度实现:更快信号速度、更多层数、更多堆栈[34] - NVIDIA路线图显示HBM容量从A100的80GB增至Rubin Ultra的1024GB,带宽从2.0 TB/s增至32.0 TB/s[36] HBM在AI工作负载中的应用与瓶颈 - AI模型增长遵循"内存帕金森"动态,HBM容量提升促使模型参数、上下文长度和KVCache占用同步增加[37] - LLM推理中权重和KVCache均驻留HBM,带宽不足导致GPU等待时间超过计算时间,推理受内存限制[38] - 上下文长度增长(常超数十万token)加剧内存压力,需低批量大小服务,但影响经济效益[39] - 强化学习(RL)依赖大量推理生成数据,KVCache卸载至DDR或NVMe可缓解HBM压力[40] - Nvidia Dynamo框架管理KVCache分层存储,常用数据存HBM,次常用存DDR,极少用存NVMe[41] - 工作负载特性决定DDR或NVMe选择,高频循环数据适合DDR,因NAND写入容限有限[42] - 训练阶段权重、激活值和梯度均通过HBM,但RL兴起使训练更接近推理模式[43]