Known Good Die testing (KGD)
搜索文档
HBM,为何那么贵?
半导体行业观察· 2026-03-10 10:04
文章核心观点 - HBM(高带宽内存)的生产是一项极其复杂的技术挑战,其困难贯穿于设计、制造、测试、封装及客户交付后的全流程,这导致了HBM价格昂贵、供应稀缺,并成为AI芯片供应链中的关键瓶颈[35] 设计:不仅仅是堆叠式DRAM - 总线宽度巨大:HBM3E运行宽度为1024位,HBM4将提升至2048位,远超标准DDR5的64位,这需要与相邻GPU建立超过一千个连接,无法在PCB上实现,因此必须使用硅中介层和CoWoS等2.5D封装技术[3][5] - 电源分配网络复杂:通过TSV为12或16个堆叠芯片提供纯净电源非常困难,高电流事件期间上层芯片的电压下降是严重问题,TSV布局是内存厂商核心的专有技术,直接影响良率和性能[6][8] - HBM4带来根本性变革:其基片将采用代工厂级逻辑工艺(如台积电12nm或三星SF级工艺),并可承载客户定制逻辑电路,使HBM从通用组件向半定制组件过渡,设计复杂性大幅增加[9] 制造:良率至关重要 - TSV形成工艺要求极高:TSV直径仅几微米且纵横比高,蚀刻和电镀步骤易出现缺陷,一个12层HBM堆叠包含数百万个TSV,一个连接不良即导致芯片报废,供应商需内置TSV修复方案[10][12] - 晶圆减薄技术面临极限:12层HBM芯片需减薄至约50微米,16层需减至30微米(不到人类头发丝厚度的一半),晶圆在此厚度下易开裂和弯曲,影响后续键合精度,JEDEC封装高度限制日益收紧[13][15] - 消耗更多晶圆产能:按比特计算,HBM消耗的晶圆面积约是传统DRAM的2到3倍,晶圆厂将产能分配给HBM会挤压DDR5、LPDDR和GDDR7的产能,导致市场紧张[16] 测试:堆叠前难度大,堆叠后难度更大 - 必须进行已知良品芯片测试:由于HBM由多个芯片堆叠,每个芯片在组装前都必须经过验证(KGD测试),单个芯片良率的小幅下降会导致堆叠良率急剧降低(如单芯片良率97%时,12层堆叠良率仅69.4%)[18] - 测试过程本身极具挑战:切割后芯片仅30到50微米厚,非常脆弱易破裂,需专用设备,探针卡间距不断缩小,一套测试设备成本高达数千万韩元,测试覆盖率和测试时间需谨慎权衡[19] - 封装后测试难度指数级增长:随着层数增加,验证键合对准和互连完整性、定位特定芯片缺陷的难度极大,最终测试需结合ATE和系统级测试,成本高昂[20] - 测试基础设施更新压力大:HBM更新换代速度快于传统DRAM,测试程序、探针卡设计等需在产品发布前完成,当客户修改接口规范时测试条件需重建,测试成本占总制造成本比例大[21] 封装:半导体史上最精密的组装工艺 - 微凸点对准精度要求严苛:HBM3E凸点间距约25微米,HBM4预计缩小至16-18微米,凸点错位会导致连接失效,单个凸点故障会使整个通道失效(HBM3E有8个通道),降低带宽[23][24] - 多种键合技术并存与发展:SK海力士采用MR-MUF技术,散热好且成熟;三星采用NCF结合热压键合技术,精度更高;长远方向是混合键合,但应用于12层或更多HBM堆叠仍面临量产良率等未解决问题[25] - 翘曲问题随层数增加而加剧:芯片间热膨胀系数差异导致机械应力累积,使封装弯曲,仿真表明层数增加会提升残余应力,影响组装和长期可靠性[26] - CoWoS封装是供应链关键瓶颈:完成HBM堆叠后,需通过台积电CoWoS工艺集成到GPU/ASIC,目前台积电CoWoS产能已售罄至2026年,成为AI芯片供应链最紧缺环节[27] 交付之后:发货并不意味着万事大吉 - 客户组装引入新风险:客户封装工艺中的回流焊热处理会对HBM内部的微凸块和底部填充物施加额外热应力,可能导致通过供应商测试的部件在客户组装后出现问题[31] - 现场存在多种失效机制:数据中心全天候满负荷运行下,电迁移、热循环和蠕变三种机制同时作用,可能导致产品在发货数月甚至数年后发生故障[32] - 故障诊断与解决极其困难:出现故障时面临归因难(HBM还是GPU故障)、测试方法缺失(需从零构建系统级测试方法)以及与供应商沟通不畅(数据格式、支持能力有限)三大难题[33][34] - 行业向预测性维护转型:为应对随时间累积的物理损坏,行业正推动在运行期间持续监测信号质量,以便提前检测性能下降,相关公司正在开发解决方案[33]