英伟达拟发布“神秘芯片” 或是专为推理设计的新架构

行业趋势:AI算力需求重心转向推理 - 全球算力需求结构正发生明显变化,市场重心从训练转向推理 [3] - 据德勤预测,到2026年,“推理”将占据全部AI计算能力的三分之二 [3] - 未来将出现价值数十亿美元的推理专用优化芯片,部署在数据中心和企业服务器中 [3] 公司动态:英伟达GTC大会预期与产品战略 - 英伟达计划在3月中旬的GTC大会上推出一款“世界前所未见”的全新芯片 [1] - 业界推测最大亮点之一是英伟达将正式揭晓Rubin及下一代Feynman架构GPU的核心技术细节 [3] - 英伟达极有可能会推出整合了Groq LPU技术的全新推理芯片 [3] - 这将是英伟达首次在核心AI算力产品线中大规模引入外部架构 [4] - 此前英伟达推出Rubin CPX针对Prefill降本需求,本次或将推出LPU或“类LPU”芯片来实现Decode提效 [5] 技术分析:推理芯片架构创新与挑战 - 在基于GPU的推理架构中,计算核心与HBM之间频繁的数据搬运会影响模型decode阶段的时效性 [6] - Groq LPU采用离计算核心更近的SRAM存储模型参数,例如230MB片上SRAM可提供高达80TB/s的内存带宽,数据处理速度远超GPU架构 [6] - 面对千亿、万亿参数的大模型,纯SRAM方案在容量上无法胜任,完全替代HBM不可行 [6][7] - 英伟达可能采用类似AMD 3D V-Cache的技术,通过台积电的SoIC混合键合技术,将包含大量SRAM的LPU单元直接3D堆叠在GPU核心晶圆上 [7] - 3D堆叠SRAM方案可通过垂直堆叠提升密度,规避传统SRAM容量受面积密度限制的问题 [9] - 未来的GPU与NPU都有可能采用3D堆叠SRAM的方式,实现访存带宽的飞跃,同时保持原有的软件生态 [9] - 复杂的AI芯片可能同时需要两者:先用SoIC堆叠LPU和GPU核心,再通过CoWoS与HBM封装在一起 [9] 产业链影响:技术路径对供应链的潜在重塑 - AMD等头部厂商已有3D堆叠布局,如2021年公布的3D V-Cache技术可垂直堆叠SRAM缓存 [8] - 富士通旗下MONAKA处理器也采用3D SRAM技术,计划2027年出货 [8] - SRAM 3D堆叠技术(如台积电SoIC)需要在晶圆制造阶段进行晶圆对晶圆键合,技术和工艺与前端制造深度耦合,这将进一步将价值从后道封装前移 [9] - 为了在垂直堆叠中获得最高的互联密度和能效,最底层的计算晶圆必须采用最先进的工艺(如A16),加剧了行业对尖端工艺的依赖 [10] - 如果高端芯片价值不断向前道制造和先进封装集中,本土封测厂可能面临被“挤出”高端市场的风险,但也带来了差异化竞争机遇 [10]