Workflow
内存带宽
icon
搜索文档
复盘HBM的崛起
半导体行业观察· 2025-08-13 09:38
公众号记得加星标⭐️,第一时间看推送不会错过。 来源:内容 编译自 semianalysis 。 随着 AI 模型日益复杂,AI 系统需要容量更大、延迟更低、带宽更高、能效更高的内存。不同类型 的内存各有优缺点。SRAM 速度极快,但密度较低。DDR DRAM 密度高且价格低廉,但带宽不足。 目前最流行的内存是片上 HBM,它在容量和带宽之间取得了平衡。 HBM 将垂直堆叠的 DRAM 芯片与超宽数据路径相结合,在带宽、密度和能耗之间实现了最佳平 衡,适用于 AI 工作负载。HBM 的生产成本远高于 DDR5,且价格确实存在溢价,但市场对 HBM 的需求依然强劲。所有用于 GenAI 训练和推理的领先 AI 加速器都使用 HBM。加速器路线图的共同 趋势是通过增加更多堆栈、增加层数以及更快的 HBM 迭代来扩展每个芯片的内存容量和带宽。正如 我们所证明的那样,依赖其他形式内存的架构性能往往不尽如人意。 在本问中,我们将探讨 HBM 的现状、供应链动态以及未来将发生的突破性变革。我们将探讨 HBM 在 AI 加速器架构中的关键作用、HBM 对 DRAM 市场的影响,以及它为何颠覆了内存市场分析的方 式。 首先, ...
英伟达CEO黄仁勋:内存带宽对推理很有用
快讯· 2025-07-16 15:32
英伟达CEO黄仁勋关于内存带宽的评论 - 英伟达CEO黄仁勋指出内存带宽在推理任务中具有重要作用 [1]
AI芯片的双刃剑
半导体行业观察· 2025-02-28 11:08
软件编程与人工智能建模的范式转变 - 传统软件编程依赖明确的指令代码,适合确定性场景但缺乏动态适应能力[2] - AI软件建模通过数据训练学习模式,使用概率推理处理不确定性,模型复杂度体现在参数规模而非代码量[3] - 高级AI模型如LLM包含数千亿至数万亿参数,依赖多维矩阵数学运算,每个时钟周期并行处理所有参数[3] 处理硬件的影响 - CPU采用串行执行架构,多核多线程提升并行性但仍无法满足AI模型的并行需求[4] - 高端CPU计算能力达几GigaFLOPS,内存带宽峰值500GB/s,内存容量达TB级[5] - GPU提供PetaFLOPS级性能,比CPU高两个数量级,但运行GPT-4时效率可能降至理论峰值的5%[6] - GPU高功耗引发可持续性问题,专用AI加速器(如ASIC)在计算效率和能耗上更具优势[7] AI加速器的关键属性与挑战 - 关键指标包括批处理大小和token吞吐量,需平衡延迟与吞吐量需求[8] - 大批量提升吞吐量但增加内存带宽压力,实时应用(如自动驾驶)需批量大小为1以最小化延迟[12] - 连续批处理技术动态添加输入,减少延迟并提升整体效率[13] - Token吞吐量依赖计算效率和数据移动优化,需首次token输出时间最短[14][15] 内存与计算瓶颈 - 内存带宽是主要瓶颈,大批量导致缓存未命中及访问延迟增加[9][19] - 高带宽内存(HBM3)和智能片上缓存可缓解内存瓶颈[21] - LLM依赖并行矩阵运算和注意力机制,计算瓶颈需专用硬件(如矩阵乘法单元)和混合精度计算(FP8)解决[19][22] 优化方向 - 硬件创新包括类似寄存器的缓存结构、专用加速器设计及高效数据流架构[21][22] - 软件优化涵盖定制化内核、梯度检查点减少内存占用、管道并行提升吞吐量[23] - 混合精度计算在保持模型精度前提下降低内存带宽需求和计算开销[22] 行业技术趋势 - Transformer架构需每个token关注全部历史token,增量Transformer按序计算token提升流式推理效率但增加内存需求[16] - 不规则token模式和自回归模型依赖可能导致硬件管道停滞,需优化调度策略[17] - AI加速器仍处早期阶段,需结合内存架构创新与数据流优化以突破性能限制[18][20][24]