Workflow
HBF(高带宽闪存)
icon
搜索文档
推理芯片的四种方案,David Patterson撰文
半导体行业观察· 2026-01-19 09:54
文章核心观点 - 大型语言模型推理正面临硬件危机,其核心挑战已从计算能力转向内存和互连延迟,特别是自回归解码阶段[3][5] - 当前主流的GPU/TPU架构并非为LLM推理设计,在解码阶段存在内存带宽不足和互连延迟高两大效率低下问题[10][11][21] - 为解决上述挑战,文章提出了四个关键的硬件架构研究方向:高带宽闪存、近内存处理、3D内存逻辑堆叠和低延迟互连[3][24] - 评估AI系统效率的指标需要转变,应更关注性能/总拥有成本、性能/功耗和性能/二氧化碳排放量,而非单纯追求浮点运算性能[25][26] - 这些硬件创新方向不仅适用于数据中心,也可能为移动设备上的LLM推理提供解决方案[3][36] LLM推理的挑战与趋势 - **推理与训练的本质区别**:LLM推理包含预填充和解码两个阶段,预填充受计算限制,而自回归解码本质上是顺序的,受内存限制[7] - **内存是主要瓶颈**:自回归解码使推理受限于内存,而AI处理器的内存带宽增长速度远低于计算能力,例如NVIDIA GPU在2012-2022年间浮点运算性能增长80倍,带宽仅增长17倍[11][12] - **HBM成本攀升**:HBM的成本在增加,从2023年到2025年,其容量和带宽的标准化价格均上涨了1.35倍,而标准DDR4 DRAM的成本同期在下降[16] - **DRAM密度增长放缓**:DRAM芯片密度增长显著放缓,实现四倍增长所需时间从过去的3-6年延长至超过10年[17] - **端到端延迟要求苛刻**:面向用户的推理需要低延迟响应,可能要求秒级甚至更短,而长输入/输出序列、推理模型等趋势进一步增加了延迟挑战[20][21][22] - **互连延迟比带宽更重要**:对于LLM推理中频繁发送的小规模网络消息,延迟成为比带宽更关键的因素[21][22] - **新兴趋势加剧挑战**:专家混合模型、推理模型、多模态、长上下文、检索增强生成等趋势普遍增加了对内存容量、带宽和互连的需求,仅扩散模型主要增加计算需求[5][9][23] 四个硬件研究方向 高带宽闪存 - **核心概念**:通过堆叠闪存芯片,结合HBM级别的高带宽与闪存的大容量,可使每个节点的内存容量提升10倍[28] - **优势**:容量显著高于HBM,可持续扩展性强,闪存容量每三年翻一番,有助于缩小系统尺寸,降低功耗、总拥有成本和二氧化碳排放量[28][32] - **适用场景**:适用于存储推理过程中冻结的权重或变化缓慢的上下文,例如支持巨型MoE模型或存储Web语料库、代码数据库等[31][32][35] - **局限性**:存在写入耐久性有限和基于页面的读取延迟较高的问题,因此无法完全取代HBM,系统仍需DRAM存储频繁更新的数据[28][31] 近内存处理与内存内处理 - **概念区分**:内存内处理将处理器和内存集成在同一芯片上,而近内存处理中两者位于相邻但独立的芯片上[33] - **PNM的优势**:对于数据中心LLM推理,近内存处理在软件分片灵活性、逻辑性能功耗面积、内存密度、商用内存定价和散热预算方面优于内存内处理[34][36] - **移动设备的差异**:移动设备因负载更轻、分片更简单,内存内处理的弱点不那么突出,可能更具可行性[36] 3D内存逻辑堆叠 - **核心价值**:通过垂直硅通孔实现宽而密的内存接口,从而在低功耗下获得高带宽[37] - **两种形式**:一是基于HBM芯片的计算方案,可复用HBM设计并降低功耗;二是定制3D解决方案,可实现比HBM更高的带宽和能效[37] - **面临挑战**:主要包括散热问题、内存与逻辑耦合的接口标准化,以及软件如何适应新的带宽/容量/计算比例[37] 低延迟互连 - **优化方向**:针对推理对延迟敏感的特性,重新权衡网络延迟与带宽,研究高连通性拓扑和网络内处理等技术[38][41] - **具体方案**:采用树形、蜻蜓形等高连通性拓扑减少网络跳数;利用网络内处理加速广播、全归约等集合通信操作;在芯片设计上优化小数据包处理和网络接口位置[41] - **可靠性协同设计**:通过本地备用节点、容忍不完美通信等机制,降低故障对延迟的影响[41] 行业现状与效率指标 - **研究与实践脱节**:计算机体系结构领域的研究与业界实践存在脱节,例如业界在顶级会议上的论文比例从1976年的约40%降至2025年的4%以下[5] - **市场增长迅速**:预计未来5-8年,推理芯片的年销售额将增长4-6倍[5] - **现有硬件不匹配**:当前以高浮点运算性能、多HBM堆栈和带宽优化互连为特点的AI硬件理念,与LLM解码推理的需求不匹配[43] - **效率指标转变**:现代AI系统设计应更关注性能/总拥有成本、性能/功耗和性能/二氧化碳当量排放等实际效率指标,而非单纯追求峰值算力[25][26]
AI泡沫疑云下,投资机会还剩多少?
国际金融报· 2025-11-25 20:29
AI板块市场表现与反弹 - 11月25日A股延续反弹,AI概念股集体飙升,该板块作为全年主线此前因获利盘集中兑现及美股“AI泡沫”担忧而大幅回撤 [1] AI行业投资机会分析 - 当前AI行业投资机会主要存在于算力端和应用端 [1] - 算力端的关键在于存储,AI计算需要大量数据高速进出,高带宽、大容量的HBM(高带宽内存)、HBF(高带宽闪存)等已成为GPU乃至AI服务器升级的必然方向 [1] AI与互联网商业模式对比 - AI商业模式是to Task,由多模型协作完成具体任务,追求单位任务效率,做的是算力/任务生意 [1] - 互联网商业模式通常分to B、to C两类,靠单点垄断、抢占用户时长,做的是流量生意 [1] - AI投资思维更倾向“共生”,不同于互联网常见的“你死我活” [1] 投资策略与理念 - 投资长期赚钱的方法有两种:趋势投资赚短期押对趋势或事件的钱,价值投资赚企业长期成长的钱 [1] - 价值投资≈好资产+好价格,缺一不可 [2] - 投资AI领域需进行思维和方法转变,树立价值投资观念,赚企业长期发展的钱,而非依靠猜趋势、画K线、听消息 [2]
存储缺货,30年来首次
半导体芯闻· 2025-11-07 18:24
行业供需动态 - 存储行业受AI驱动出现严重缺货,NAND Flash本月合约价大涨约50%,DRAM的DDR4与DDR5价格持续上涨 [2] - NAND Flash大量应用于AI是近两三个月的新现象,供应商将产能转向AI应用,同时客户因HDD缺货转向高容量SSD,预计NAND Flash缺货刚开始 [2] - DRAM方面三大原厂无DDR4增产计划,预计2026年淡出DDR4市场,供给有限推动价格大幅上涨,为台厂提供机会 [2] - 闪迪预测NAND闪存供应短缺将持续到2026年底,客户反馈可能延续至2027年,供需失衡由长期需求趋势、过往投资及行业节点转型驱动 [4] - 闪迪晶圆厂满负荷运转以补充大幅减少的库存,产量已达极限 [4] 公司运营与产品策略 - 创见产品出货以DDR4为主,原料主要来自三星,是三星在台湾唯一直供模组厂,预计明年DDR5出货比重将上升,DDR5目前也相当缺货但新增产能机会较高 [2] - 闪迪数据中心收入环比增长26%,有两家超大规模数据中心正在认证,第三家和一家顶级存储OEM厂商计划2026年完成认证,与五家大型超大规模数据中心客户密切合作 [7] - 闪迪BiCS8技术占总出货量15%,预计到2026财年末将占据生产主导地位 [7] - 闪迪在高带宽闪存领域取得进展,正与潜在客户合作开发面向数据中心和边缘计算的AI推理应用 [6] 财务表现与展望 - 创见第三季营收达41.09亿元新台币,季增27.2%,年增63.2%,税后净利15.11亿元,季增259%,年增334%,每股盈余3.52元 [3] - 闪迪2026财年第一季度营收23.1亿美元,环比增长21%,高于预期,GAAP净利润1.12亿美元(每股0.75美元),非GAAP每股收益1.22美元 [6] - 闪迪对2026财年第二季度业绩指引远超预期,预计营收25.5亿至26.5亿美元(市场预期23.2亿),调整后每股收益3.00至3.40美元(此前预测1.79美元) [6] 市场趋势与预测 - 受更快的增长速度和更多元化的客户群体推动,到2026年数据中心市场可能首次超越移动市场成为最大的NAND闪存细分市场 [4]