Workflow
3D堆叠封装
icon
搜索文档
新一代AI推理芯片
2026-03-06 10:02
电话会议纪要关键要点总结 **涉及的行业与公司** * 行业:AI芯片、半导体、数据中心基础设施 * 公司:英伟达、Grok、谷歌、AMD、英特尔、台积电 一、 AI芯片架构趋势与竞争格局 核心观点:GPU与LPU从替代转向互补协同 * GPU擅长Prefill阶段的大规模并行预处理,LPU在Decode阶段的连续token生成具备低延迟优势,二者协同可显著改善P95/P99尾部延迟[1] * 更优组合是GPU+LPU的互补协作,而非替代关系[2][3] * 英伟达可能推出包含64集群LPU组合并搭配GPU的打包式机架级方案,以整体解决方案交付[2][3] 各类处理单元的定位与差异 * **GPU**:以英伟达H100为代表,核心仍是以大硅片、高算力承担AI训练与推理,依赖集群规模效应和强并行计算能力[2];CUDA与Tensor相关的软件生态成熟,普适性与兼容性强[2] * **LPU**:定位为面向大语言模型的语言处理单元,聚焦语言文本相关处理,核心优势在于低延迟[1][4];单独部署时效率或边际效益与成本表现并不突出[2] * **TPU**:以谷歌等云厂商自研为代表,深度绑定自身软件栈,在自家云环境内效果最好,但跨平台通用性与适配成本较高[2] * **NPU**:更适配强调场景化、实时性与低功耗的任务,如视频会议中的背景模糊、语音降噪等[13] LPU无法取代GPU核心组件 * LPU不具备取代Tensor Core的条件与必要性,两者分工不同、面向负载不同,属于互补关系[4] * LPU并不承担并行计算、图形渲染等通用负载,无法替代Tensor Core在AI训练推理(覆盖FP16到FP64等多精度计算)、并行计算与通用生态中的作用[1][4] * 在万亿级参数大模型训练、万卡集群等场景,仍需要依赖GPU与Tensor Core提供的计算密度与生态支撑[5] 二、 技术实现与核心支撑 3D堆叠封装是LPU实现低延迟的关键 * LPU通过片上SRAM/DRAM与计算核心垂直堆叠,缩短访问链路,实现极低访问延迟,系推理提速关键[1][7] * 3D封装的本质是将原本平面排列的存储单元走向立体堆叠,以应对制程进入纳米甚至埃米阶段后,摩尔定律边际效应下降、晶体管密度扩展受限以及漏电等约束[7] * 该技术并非新生事物,在存储领域(如固态存储)和计算侧(英特尔至强系列)已有多年应用和落地[7] 3D堆叠的容量特点与价值 * LPU集成的DRAM容量并不大,目前公开信息口径为"几百兆",远低于HBM那种可扩展到TB级别的容量上限[8] * 其优势不在于总容量,而在于与主芯片封装在一起后具备极低的访问延迟,从而带来更高的系统效率[8] * 3D堆叠的核心价值在于,在芯片占用的平面面积不变的情况下,通过垂直方向的堆叠显著提升可集成的晶体管数量或存储单元数量,从而实现容量与规模的扩展[8] 异构集成成为先进制程瓶颈下的必然选择 * 在2nm等节点良率受限背景下,通过Chiplet将不同制程的CPU、GPU、NPU集成,可有效降低TCO并提升系统能效[1] * Chiplet与异构集成允许不同模块采用不同制程组合,例如关键计算单元采用更先进制程,总线等采用成熟制程(如7nm),以降低成本并提升良率[8][9] 三、 应用场景与性能表现 LPU与GPU在推理流程中的具体分工 * **Prefill阶段(GPU负责)**:将输入内容拆分为token单元并进行并行处理,完成后生成矩阵并输出初始推理状态[6][11] * **Decode阶段(LPU负责)**:接收GPU输出的初始状态,通过静态调度进行串行token生成,对前序上下文依赖更强[6][12];主要用于该阶段提速并降低卡顿感,重点改善P95、P99等尾部延迟指标[4] * 整体分工原则是让不同核心承担其最擅长的任务:低延迟诉求更适合由具备片上内存结构优势的LPU承接[12] LPU适合推理而非训练的原因 * **存储限制**:LPU采用片上SRAM,容量仅为"几百兆"量级,而GPU的HBM可达TB量级,面对数百B参数规模的训练负载难以支撑[14] * **算力与架构**:LPU设计初衷面向端到端低延迟与更确定性的任务负载,而非大规模并行训练[14] * **精度要求**:GPU覆盖从半精到全精等多种精度,而LPU精度相对更低,主要为Llama推理优化,难以满足训练对精度体系的要求[14] * **软件生态**:GPU的CUDA与Tensor生态成熟,LPU单独做训练缺乏成熟的优化与适配基础[14] 多模态推理芯片现状 * 目前尚未看到明确"某一款芯片在多模态推理上显著更强"的确定结论,多模态能力的提升更多集中在模型与算法优化路径[19] * 多模态与LPU并非同一路径,但未来多模态算力也可能走向"通用芯片+专用芯片拆解协同"的形态[19][20] 四、 基础设施挑战与演进 高功耗驱动散热与供电变革 * 单芯片功耗逼近2000W,将倒逼数据中心从风冷转向冷板式或全浸没液冷[2][16] * 传统风冷可能难以覆盖该功耗密度,在更高热密度下,可能需要全浸没式液冷等方式[16] * 服务器供电体系需要升级以匹配分区级动态功耗调度,原有12V、18V供电方案在发热与线路损耗等约束下可能难以适配[2][16] 软硬件协同与调度成为关键挑战 * 随着芯片异构化程度提升,单芯片内部划分为多个独立计算分区,功耗调度算法本身会成为新增的系统挑战[16] * 必须打通软件生态,通过软件层实现对多颗高功耗芯片的高效调度与协同执行,生态与调度能力将直接影响整体系统可用性与效率[16][18] * LPU与GPU的融合协同在工程实现上存在较大难度,调度机制与系统工程能力可能构成厂商当前的主要攻关方向[17] 五、 成本与经济性优化 降低推理成本的策略 * **专用算力替代部分通用算力**:通过异构方式实现更细颗粒度的分工协作,使每颗芯片更聚焦"重要的事"并尽可能跑满,从硬件侧提高利用率与效率[18] * **存储侧成本优化**:通过数据分层,将PB级数据按冷热属性划分,并据此配置不同存储介质以降低总体成本[18] * **评估核心是TCO**:数据中心对3D技术等封装形式的接受度本质上取决于其对TCO改善的贡献[10];能效提升带来的功耗下降即便只有"单路降低50W"这样的量级,在规模放大后对总体成本影响也会非常显著[10] 专用芯片兴起的逻辑 * 专用芯片本质是"针对特定负载做优化"的算力形态,近几年因大语言模型热度提升,专用算力需求被显著放大[17] * 相较于通用GPU为兼顾多场景而存在的冗余设计,专用芯片有机会提升特定任务的算力利用率,从而减少在低利用率状态下的算力与功耗浪费[17]