HBM之父:HBM和HBF终将超越GPU

文章核心观点 - 文章通过采访HBM先驱金钟浩教授,探讨了高带宽闪存(HBF)作为解决AI推理中内存容量瓶颈的潜在技术方案,并分析了其发展前景与挑战 [1][6] - 核心观点认为,AI性能受限于内存带宽与容量,HBM虽提供高带宽但容量不足,HBF旨在提供更大容量以应对AI工作负载(尤其是Transformer模型推理)中的键值缓存溢出问题 [3][6] - HBF技术的成功取决于行业标准的确立及GPU制造商(如英伟达)的采纳,其发展路径复杂,面临硬件架构变更、软件优化及与现有方案(如英伟达ICMSP)竞争等挑战 [6][7] 技术背景与问题阐述 - AI训练与推理性能高度依赖DRAM的带宽和内存容量,当前冯·诺依曼架构下,大多数生成式AI基于Transformer模型,该模型对内存依赖性强 [3] - HBM旨在为GPU提供更高带宽和更大内存容量,但在推理场景中,某些情况需要更大的内存容量和更多读取周期,HBM容量仍显不足 [6] - AI性能衡量基于每秒吞吐量和延迟,内存带宽有限直接限制了AI性能,内存创新成为驱动计算领域创新的关键 [6] 高带宽闪存(HBF)的提出与原理 - HBF概念由金钟浩教授提出,其灵感源于尝试利用NAND闪存来解决内存容量问题,因为NAND闪存的存储容量是其他闪存的10倍 [6] - HBF与HBM在结构上有相似之处,目标都是实现高带宽,但器件类型不同 [6] - 提出一种架构模型:在1TB的HBF层前放置100GB的HBM作为缓存,以同时满足高带宽和大容量的需求 [6] HBF发展的挑战与复杂性 - HBF的采用需要GPU制造商(如英伟达)接受新的硬件架构,这对GPU而言是最佳选择但也是挑战 [6] - 开发人员需要修改软件以优化软硬件协同,例如需要新的指令集和电路来支持数据直接从HBF传输到HBM [6] - HBF技术的开发是一个多年过程,涉及大量半导体层面工作,部署方式复杂(HBM芯片组可能需缓存HBF数据或GPU直接连接HBF) [7] 竞争技术与行业动态 - 英伟达已开发了上下文内存扩展技术(ICMSP),该技术利用与DPU连接的NVMe SSD来存储溢出的键值缓存数据 [2] - ICMSP通过BlueField-4 DPU(作为存储加速器)和采用光子技术的Spectrum-6以太网(端口传输速度达800 Gbps)实现高于标准SSD的带宽和更低延迟 [2] - SK海力士和英伟达正在合作开发一款1亿IOPS的AI SSD(AIN-P),若该SSD用于英伟达的ICMSP,则可能降低对HBF的需求 [7] HBF前景展望与行业意义 - HBF技术的未来取决于固态硬盘行业能否形成通用的HBF标准,以及英伟达是否将其作为技术发展方向,缺少这两点将使其发展举步维艰 [7] - 金钟浩教授认为,计算领域的创新将主要由内存架构驱动,在人工智能时代,HBM和HBF的重要性将可能超过GPU [6][8] - 人工智能被视为继个人电脑、互联网之后又一次重大变革,为行业、投资者和学生提供了绝佳机会 [7][8]