Workflow
LLM推理芯片
icon
搜索文档
推理芯片的四种方案,David Patterson撰文
半导体行业观察· 2026-01-19 09:54
文章核心观点 - 大型语言模型推理正面临硬件危机,其核心挑战已从计算能力转向内存和互连延迟,特别是自回归解码阶段[3][5] - 当前主流的GPU/TPU架构并非为LLM推理设计,在解码阶段存在内存带宽不足和互连延迟高两大效率低下问题[10][11][21] - 为解决上述挑战,文章提出了四个关键的硬件架构研究方向:高带宽闪存、近内存处理、3D内存逻辑堆叠和低延迟互连[3][24] - 评估AI系统效率的指标需要转变,应更关注性能/总拥有成本、性能/功耗和性能/二氧化碳排放量,而非单纯追求浮点运算性能[25][26] - 这些硬件创新方向不仅适用于数据中心,也可能为移动设备上的LLM推理提供解决方案[3][36] LLM推理的挑战与趋势 - **推理与训练的本质区别**:LLM推理包含预填充和解码两个阶段,预填充受计算限制,而自回归解码本质上是顺序的,受内存限制[7] - **内存是主要瓶颈**:自回归解码使推理受限于内存,而AI处理器的内存带宽增长速度远低于计算能力,例如NVIDIA GPU在2012-2022年间浮点运算性能增长80倍,带宽仅增长17倍[11][12] - **HBM成本攀升**:HBM的成本在增加,从2023年到2025年,其容量和带宽的标准化价格均上涨了1.35倍,而标准DDR4 DRAM的成本同期在下降[16] - **DRAM密度增长放缓**:DRAM芯片密度增长显著放缓,实现四倍增长所需时间从过去的3-6年延长至超过10年[17] - **端到端延迟要求苛刻**:面向用户的推理需要低延迟响应,可能要求秒级甚至更短,而长输入/输出序列、推理模型等趋势进一步增加了延迟挑战[20][21][22] - **互连延迟比带宽更重要**:对于LLM推理中频繁发送的小规模网络消息,延迟成为比带宽更关键的因素[21][22] - **新兴趋势加剧挑战**:专家混合模型、推理模型、多模态、长上下文、检索增强生成等趋势普遍增加了对内存容量、带宽和互连的需求,仅扩散模型主要增加计算需求[5][9][23] 四个硬件研究方向 高带宽闪存 - **核心概念**:通过堆叠闪存芯片,结合HBM级别的高带宽与闪存的大容量,可使每个节点的内存容量提升10倍[28] - **优势**:容量显著高于HBM,可持续扩展性强,闪存容量每三年翻一番,有助于缩小系统尺寸,降低功耗、总拥有成本和二氧化碳排放量[28][32] - **适用场景**:适用于存储推理过程中冻结的权重或变化缓慢的上下文,例如支持巨型MoE模型或存储Web语料库、代码数据库等[31][32][35] - **局限性**:存在写入耐久性有限和基于页面的读取延迟较高的问题,因此无法完全取代HBM,系统仍需DRAM存储频繁更新的数据[28][31] 近内存处理与内存内处理 - **概念区分**:内存内处理将处理器和内存集成在同一芯片上,而近内存处理中两者位于相邻但独立的芯片上[33] - **PNM的优势**:对于数据中心LLM推理,近内存处理在软件分片灵活性、逻辑性能功耗面积、内存密度、商用内存定价和散热预算方面优于内存内处理[34][36] - **移动设备的差异**:移动设备因负载更轻、分片更简单,内存内处理的弱点不那么突出,可能更具可行性[36] 3D内存逻辑堆叠 - **核心价值**:通过垂直硅通孔实现宽而密的内存接口,从而在低功耗下获得高带宽[37] - **两种形式**:一是基于HBM芯片的计算方案,可复用HBM设计并降低功耗;二是定制3D解决方案,可实现比HBM更高的带宽和能效[37] - **面临挑战**:主要包括散热问题、内存与逻辑耦合的接口标准化,以及软件如何适应新的带宽/容量/计算比例[37] 低延迟互连 - **优化方向**:针对推理对延迟敏感的特性,重新权衡网络延迟与带宽,研究高连通性拓扑和网络内处理等技术[38][41] - **具体方案**:采用树形、蜻蜓形等高连通性拓扑减少网络跳数;利用网络内处理加速广播、全归约等集合通信操作;在芯片设计上优化小数据包处理和网络接口位置[41] - **可靠性协同设计**:通过本地备用节点、容忍不完美通信等机制,降低故障对延迟的影响[41] 行业现状与效率指标 - **研究与实践脱节**:计算机体系结构领域的研究与业界实践存在脱节,例如业界在顶级会议上的论文比例从1976年的约40%降至2025年的4%以下[5] - **市场增长迅速**:预计未来5-8年,推理芯片的年销售额将增长4-6倍[5] - **现有硬件不匹配**:当前以高浮点运算性能、多HBM堆栈和带宽优化互连为特点的AI硬件理念,与LLM解码推理的需求不匹配[43] - **效率指标转变**:现代AI系统设计应更关注性能/总拥有成本、性能/功耗和性能/二氧化碳当量排放等实际效率指标,而非单纯追求峰值算力[25][26]