3D堆叠封装 - 财报，业绩电话会，研报，新闻

3D堆叠封装

搜索文档

2026-03-06 10:02

电话会议纪要关键要点总结 **涉及的行业与公司** * 行业：AI芯片、半导体、数据中心基础设施 * 公司：英伟达、Grok、谷歌、AMD、英特尔、台积电一、 AI芯片架构趋势与竞争格局核心观点：GPU与LPU从替代转向互补协同 * GPU擅长Prefill阶段的大规模并行预处理，LPU在Decode阶段的连续token生成具备低延迟优势，二者协同可显著改善P95/P99尾部延迟[1] * 更优组合是GPU+LPU的互补协作，而非替代关系[2][3] * 英伟达可能推出包含64集群LPU组合并搭配GPU的打包式机架级方案，以整体解决方案交付[2][3] 各类处理单元的定位与差异 * **GPU**：以英伟达H100为代表，核心仍是以大硅片、高算力承担AI训练与推理，依赖集群规模效应和强并行计算能力[2]；CUDA与Tensor相关的软件生态成熟，普适性与兼容性强[2] * **LPU**：定位为面向大语言模型的语言处理单元，聚焦语言文本相关处理，核心优势在于低延迟[1][4]；单独部署时效率或边际效益与成本表现并不突出[2] * **TPU**：以谷歌等云厂商自研为代表，深度绑定自身软件栈，在自家云环境内效果最好，但跨平台通用性与适配成本较高[2] * **NPU**：更适配强调场景化、实时性与低功耗的任务，如视频会议中的背景模糊、语音降噪等[13] LPU无法取代GPU核心组件 * LPU不具备取代Tensor Core的条件与必要性，两者分工不同、面向负载不同，属于互补关系[4] * LPU并不承担并行计算、图形渲染等通用负载，无法替代Tensor Core在AI训练推理（覆盖FP16到FP64等多精度计算）、并行计算与通用生态中的作用[1][4] * 在万亿级参数大模型训练、万卡集群等场景，仍需要依赖GPU与Tensor Core提供的计算密度与生态支撑[5] 二、技术实现与核心支撑 3D堆叠封装是LPU实现低延迟的关键 * LPU通过片上SRAM/DRAM与计算核心垂直堆叠，缩短访问链路，实现极低访问延迟，系推理提速关键[1][7] * 3D封装的本质是将原本平面排列的存储单元走向立体堆叠，以应对制程进入纳米甚至埃米阶段后，摩尔定律边际效应下降、晶体管密度扩展受限以及漏电等约束[7] * 该技术并非新生事物，在存储领域（如固态存储）和计算侧（英特尔至强系列）已有多年应用和落地[7] 3D堆叠的容量特点与价值 * LPU集成的DRAM容量并不大，目前公开信息口径为"几百兆"，远低于HBM那种可扩展到TB级别的容量上限[8] * 其优势不在于总容量，而在于与主芯片封装在一起后具备极低的访问延迟，从而带来更高的系统效率[8] * 3D堆叠的核心价值在于，在芯片占用的平面面积不变的情况下，通过垂直方向的堆叠显著提升可集成的晶体管数量或存储单元数量，从而实现容量与规模的扩展[8] 异构集成成为先进制程瓶颈下的必然选择 * 在2nm等节点良率受限背景下，通过Chiplet将不同制程的CPU、GPU、NPU集成，可有效降低TCO并提升系统能效[1] * Chiplet与异构集成允许不同模块采用不同制程组合，例如关键计算单元采用更先进制程，总线等采用成熟制程（如7nm），以降低成本并提升良率[8][9] 三、应用场景与性能表现 LPU与GPU在推理流程中的具体分工 * **Prefill阶段（GPU负责）**：将输入内容拆分为token单元并进行并行处理，完成后生成矩阵并输出初始推理状态[6][11] * **Decode阶段（LPU负责）**：接收GPU输出的初始状态，通过静态调度进行串行token生成，对前序上下文依赖更强[6][12]；主要用于该阶段提速并降低卡顿感，重点改善P95、P99等尾部延迟指标[4] * 整体分工原则是让不同核心承担其最擅长的任务：低延迟诉求更适合由具备片上内存结构优势的LPU承接[12] LPU适合推理而非训练的原因 * **存储限制**：LPU采用片上SRAM，容量仅为"几百兆"量级，而GPU的HBM可达TB量级，面对数百B参数规模的训练负载难以支撑[14] * **算力与架构**：LPU设计初衷面向端到端低延迟与更确定性的任务负载，而非大规模并行训练[14] * **精度要求**：GPU覆盖从半精到全精等多种精度，而LPU精度相对更低，主要为Llama推理优化，难以满足训练对精度体系的要求[14] * **软件生态**：GPU的CUDA与Tensor生态成熟，LPU单独做训练缺乏成熟的优化与适配基础[14] 多模态推理芯片现状 * 目前尚未看到明确"某一款芯片在多模态推理上显著更强"的确定结论，多模态能力的提升更多集中在模型与算法优化路径[19] * 多模态与LPU并非同一路径，但未来多模态算力也可能走向"通用芯片+专用芯片拆解协同"的形态[19][20] 四、基础设施挑战与演进高功耗驱动散热与供电变革 * 单芯片功耗逼近2000W，将倒逼数据中心从风冷转向冷板式或全浸没液冷[2][16] * 传统风冷可能难以覆盖该功耗密度，在更高热密度下，可能需要全浸没式液冷等方式[16] * 服务器供电体系需要升级以匹配分区级动态功耗调度，原有12V、18V供电方案在发热与线路损耗等约束下可能难以适配[2][16] 软硬件协同与调度成为关键挑战 * 随着芯片异构化程度提升，单芯片内部划分为多个独立计算分区，功耗调度算法本身会成为新增的系统挑战[16] * 必须打通软件生态，通过软件层实现对多颗高功耗芯片的高效调度与协同执行，生态与调度能力将直接影响整体系统可用性与效率[16][18] * LPU与GPU的融合协同在工程实现上存在较大难度，调度机制与系统工程能力可能构成厂商当前的主要攻关方向[17] 五、成本与经济性优化降低推理成本的策略 * **专用算力替代部分通用算力**：通过异构方式实现更细颗粒度的分工协作，使每颗芯片更聚焦"重要的事"并尽可能跑满，从硬件侧提高利用率与效率[18] * **存储侧成本优化**：通过数据分层，将PB级数据按冷热属性划分，并据此配置不同存储介质以降低总体成本[18] * **评估核心是TCO**：数据中心对3D技术等封装形式的接受度本质上取决于其对TCO改善的贡献[10]；能效提升带来的功耗下降即便只有"单路降低50W"这样的量级，在规模放大后对总体成本影响也会非常显著[10] 专用芯片兴起的逻辑 * 专用芯片本质是"针对特定负载做优化"的算力形态，近几年因大语言模型热度提升，专用算力需求被显著放大[17] * 相较于通用GPU为兼顾多场景而存在的冗余设计，专用芯片有机会提升特定任务的算力利用率，从而减少在低利用率状态下的算力与功耗浪费[17]