Arithmetic Intensity - 财报，业绩电话会，研报，新闻

Arithmetic Intensity

搜索文档

半导体行业观察· 2026-02-02 09:33

文章核心观点 - 人工智能模型，特别是大型语言模型（LLM）的训练和服务，正面临日益严重的“内存墙”瓶颈，其制约已超过计算能力本身[2][4] - 过去20年，服务器硬件峰值计算能力（FLOPS）增长6万倍，远超DRAM带宽（增长100倍）和互连带宽（增长30倍）的增速，导致内存成为主要性能瓶颈[8][10] - 解码器架构的Transformer模型（如GPT）因自回归推理特性，其内存操作量更大、算术强度更低，使得内存带宽瓶颈尤为突出[17] - 为应对挑战，需要在模型架构设计、训练算法、部署策略以及硬件设计等多个层面进行系统性重新思考和创新[18][31] 硬件性能增长趋势与“内存墙”问题 - 过去20年间，服务器硬件的峰值浮点运算能力（FLOPS）以每两年3.0倍的速度增长，而DRAM带宽和互连带宽的增速分别仅为每两年1.6倍和1.4倍[10] - 自1998年以来，服务器级AI硬件的峰值计算能力增长了6万倍，而DRAM峰值带宽仅增长100倍，互连带宽仅增长30倍，差距巨大[8] - “内存墙”问题涉及内存容量、带宽及延迟的限制，涵盖芯片内、芯片与DRAM间以及多处理器间的数据传输，其改进速度均落后于计算能力增长[6][8] - 内存带宽瓶颈不仅存在于单芯片内部，在分布式训练/服务中，加速器间的网络通信带宽也是更慢、效率更低的瓶颈[9] 大型语言模型（LLM）的发展趋势与挑战 - 2018年至2022年间，训练LLM所需的计算量（FLOPs）以每两年750倍的速度激增，而模型参数规模以每两年410倍的速度增长[4][9] - 模型规模的扩展速度（410倍/两年）已超过单个芯片的可用内存容量，迫使采用分布式内存并行，但面临更严峻的通信带宽挑战[9] - 即使模型能装入单芯片，芯片内部不同层级内存（如寄存器、缓存、全局内存）间的数据传输也日益成为保持计算单元利用率的关键瓶颈[10] Transformer模型案例研究：编码器 vs. 解码器 - 编码器模型（如BERT）并发处理所有token，涉及矩阵-矩阵运算；解码器模型（如GPT）以自回归方式运行，涉及重复的矩阵-向量乘法[13] - 算术强度（每字节内存操作可执行的FLOP数）是衡量性能瓶颈的关键指标，解码器模型因矩阵-向量运算而具有更低的算术强度[14][16] - 性能分析显示，在模型配置和总FLOPs相近的情况下，GPT-2的推理延迟显著高于BERT-Base，这归因于其更高的内存操作量和更低的算术强度[17] - 该案例清楚地表明，对于解码器模型（尤其是在小批量大小下），内存带宽而非计算能力是主要瓶颈[17] 突破内存瓶颈的潜在解决方案：模型与算法创新 - 需要重新思考人工智能模型的设计，当前基于简单扩展规则（如缩放基础Transformer架构）的方法效率有限[18] - 开发更高效的训练算法，如对超参数调优更具鲁棒性的二阶随机优化方法，但需解决其内存占用是其他方法3-4倍的问题[22] - 采用重物化（激活检查点）技术，通过增加约20%的计算量，可减少高达5倍的内存占用，使单芯片训练更大模型成为可能[23] - 设计对低精度训练鲁棒的算法，例如混合使用FP8、FP16甚至FP4精度，以更高效利用硬件并腾出芯片资源改善内存性能[24] 突破内存瓶颈的潜在解决方案：部署与硬件 - 通过量化、剪枝或设计小型语言模型来压缩模型，以利于高效部署[25] - 量化可将推理精度降至INT4，使模型占用空间和延迟最多降低8倍，但使用更低精度（如低于INT4）仍是挑战[27] - 剪枝可移除冗余参数，现有方法可剪枝高达30%的结构化稀疏神经元或高达80%的非结构化稀疏神经元，且对精度影响极小[27] - 小型语言模型若能完全集成到芯片上，可带来数个数量级的速度提升和能耗降低，是推动AI广泛应用的新方向[28] - 重新思考AI加速器设计，在峰值计算能力和内存带宽间寻求更好权衡，例如采用更高效的缓存层次结构和更高容量的DRAM[29]

Memory Wall

Arithmetic Intensity

Semiconductor

Large Language Model (LLM)

Large Language Model (LLM)

Transformer

BERT