推测性解码
搜索文档
英伟达的推理芯片局
半导体行业观察· 2026-03-25 08:40
文章核心观点 文章详细解读了英伟达在2026年GTC大会上发布的一系列新产品、技术路线图及系统架构,核心观点在于英伟达正通过硬件创新、架构整合及生态扩展,巩固并扩大其在人工智能推理基础设施领域的领导地位[3]。公司通过收购Groq整合LPU技术、推出多代GPU与系统、以及布局CPO(共封装光学)等先进互连技术,旨在构建一个覆盖计算、网络、存储的完整且高性能的AI推理解决方案王国[3][93]。 产品与技术发布 - 英伟达在GTC 2026上发布了三款新系统:Groq LPX、Vera ETL256和STX,并更新了Kyber机架架构[3] - 发布了Rubin Ultra NVL576和Feynman NVL1152等多机架系统,并透露了Feynman架构的早期信息[3] - 公司CEO黄仁勋在主题演讲中特别提及了InferenceX,凸显了其对推理市场的重视[3] Groq收购与LPU技术整合 - 英伟达以支付200亿美元获得知识产权许可和团队的形式“收购”了Groq,此举规避了严格的反垄断审查并加速了技术整合[4] - 交易宣布不到四个月,Groq的LPU(语言处理单元)系统概念已被集成到Vera Rubin推理堆栈中[4] - Groq LPU采用独特的“切片”架构,通过高带宽SRAM和确定性执行实现极低的延迟,擅长快速处理token,但与GPU相比在总吞吐量上存在权衡[5][6][8] - 第一代LPU采用GlobalFoundries 14nm工艺,而计划中的第二代LPU因设计问题(SerDes速度未达标)从未量产[6][7] - 英伟达将直接推出第三代LPU(LP30/LP35),跳过有缺陷的第二代,采用三星SF4X工艺,拥有500MB片上SRAM和1.2 PFLOPS的FP8算力[9][14] - 下一代LP40将采用台积电N3P工艺和CoWoS-R封装,集成英伟达自有IP(如NVLink),并与Feynman平台协同设计[15] GPU与LPU协同推理架构(AFD) - 英伟达引入LPU旨在提升高交互场景下的推理性能,利用其低延迟特性加速解码阶段[19] - 提出了注意力前馈神经网络解耦(AFD)技术,将Transformer模型中的注意力机制(有状态、动态)映射到GPU执行,而将前馈网络(FFN,无状态、静态)映射到LPU执行[21][25] - 这种解耦允许GPU的HBM容量更专注于键值缓存(KV Cache),从而支持更多的并发用户[23] - 采用乒乓流水线并行机制来隐藏GPU与LPU之间token路由(分发与合并)产生的通信延迟[27][29] - LPU还可用于部署推测性解码中的草稿模型或多token预测层,以进一步提升解码效率[32] LPX机架系统 - LPX机架系统包含32个1U计算托架,每个托架(节点)包含16个LPU、2个Altera FPGA、1个Intel Granite Rapids CPU和1个BlueField-4前端模块[35][38] - LPU模块采用背靠背方式安装在PCB上,以优化布线[41] - FPGA作为“架构扩展逻辑”,承担协议转换(C2C转以太网/PCIe)、控制流管理以及提供额外DDR5内存(每个FPGA高达256GB)供KV Cache使用的角色[43] - LPU网络分为节点内全网状连接、通过铜背板的节点间/机架内连接,以及通过OSFP笼(可能使用AEC或光模块)的机架间连接,机架内纵向扩展总带宽达640TB/s[44][46][48][52] 英伟达CPO路线图与互连技术 - 英伟达公布了其CPO路线图,重点用于构建超大规模计算系统的机架间互连,而非机架内部[54] - 在Rubin时代,NVL72(Oberon机架)和NVL144(Kyber机架)采用全铜缆纵向扩展;NVL576系统(8个Oberon机架)将在机架间采用CPO互连[55][60] - 在Feynman时代,NVL1152系统(8个Kyber机架)将“完全采用CPO”,但机架内部GPU到交换机的连接预计仍使用铜缆[56][60] - 公司的策略是尽可能使用铜缆,仅在必要时(如长距离、高密度机架间连接)采用光纤/CPO[56] Kyber机架与Rubin Ultra系统更新 - Kyber机架是Oberon之后的新产品,每个机架可容纳144个Rubin Ultra GPU(原设计为72个),计算刀片密度提升[61] - 每个Kyber机架包含72个NVLink 7交换芯片,GPU通过飞线(flyover cables)连接到中板上的交换芯片[63][70] - Rubin Ultra NVL144 Kyber机架将使用全铜缆扩展,而非CPO[65] - 供应链中讨论了NVL288(两个Kyber机架通过铜背板互连)和NVL576(八个Oberon机架通过CPO互连)等更大规模系统[73][76][78] Vera ETL256高密度CPU系统 - Vera ETL256是一个独立的液冷机架,集成了256个Vera CPU,旨在解决AI工作负载中日益增长的CPU需求瓶颈[79] - 机架内部采用Spectrum-X多平面拓扑,通过铜缆实现所有CPU的完全全连接,无需光模块[80][81] - 该设计将计算资源紧密排列,用铜缆的成本节约来抵消液冷的额外开销[79] CMX与STX存储解决方案 - CMX(原称ICMS)是英伟达的上下文内存存储平台,旨在通过NVMe存储扩展键值缓存(KV Cache)容量,解决长上下文推理的瓶颈[84][85] - STX是一个参考存储机架架构,采用基于BlueField-4的存储解决方案,规定了与Vera Rubin计算集群配套所需的硬盘、CPU、DPU、网卡和交换机的数量[87][90] - 这些举措代表了英伟达将其影响力从计算和网络层向存储及基础设施标准化层拓展的努力[92]
英伟达为何斥资200亿美元收购Groq
半导体行业观察· 2026-01-01 09:26
文章核心观点 - 英伟达以200亿美元获得Groq的知识产权非独家授权并吸纳其核心团队,实质上是为获取其创新的数据流架构技术,以应对未来AI芯片性能提升的瓶颈,并强化其在推理市场的产品布局 [1][2][10] 交易结构与实质 - 英伟达支付200亿美元,获得Groq语言处理单元及配套软件库等知识产权的非独家授权,Groq公司本身保持独立运营 [2] - 交易后,Groq首席执行官Jonathan Ross、总裁Sunny Madra及大部分工程人才加入英伟达,使Groq作为独立公司的长期生存能力存疑 [2] - 该交易结构被设计为授权而非收购,可能旨在规避监管审查,但其效果等同于收购并消除潜在竞争对手 [2] 关于SRAM与内存架构的探讨 - 一种猜测认为英伟达看中Groq LPU使用的SRAM,其速度比当前GPU使用的HBM3e快10到80倍,有助于应对内存短缺危机 [3] - Groq的LPU在Llama 3.3 70B测试中生成速度达350 tok/s,在gpt-oss 120B混合专家模型中可达465 tok/s [3] - 但SRAM容量小、空间利用率低,Groq单个LPU仅230 MB SRAM,运行Llama 70B模型需将574个LPU互连,而单个HBM3e堆栈容量达36 GB [4] - SRAM本身并非稀有技术,英伟达若想采用SRAM无需收购Groq,因此该猜测可能不成立 [4] 核心动机:数据流架构 - 英伟达收购的核心动机可能是Groq的“流水线架构”或可编程数据流设计,旨在加速推理中的线性代数运算 [5] - 数据流架构在处理数据时让其流经芯片,而非传统的冯·诺依曼架构的加载-存储操作,能消除GPU中内存或计算瓶颈 [6] - 该架构允许多个LPU协同工作,理论上能在相同功耗下实现更好的实际性能,且不限于SRAM,也可基于HBM或GDDR构建 [7] - 数据流架构实现难度大,但Groq已成功应用于推理,为英伟达提供了提升芯片性能的新技术路径 [7][8] 对英伟达产品战略的意义 - 英伟达现有“推理优化”芯片与主流芯片差异不大,而Groq提供了专为推理优化的计算架构 [8] - 英伟达计划2026年推出的Rubin系列芯片采用分散式架构,Groq的技术可能有助于优化推理流程中的预填充或解码阶段 [9] - Groq的LPU因其SRAM容量限制,不适合作为主要解码加速器,但可能适用于参数规模较小的推测性解码草稿模型,以提升系统性能 [9] - 收购有助于英伟达销售更多芯片和配件,且200亿美元对其而言是可承受的数额,其上季度运营现金流达230亿美元 [10] 对其他猜测的否定 - 关于交易能为英伟达开放三星等额外代工厂产能的猜测站不住脚,因英伟达此前已委托三星代工,且产能转移本身不依赖此交易 [11] - 英伟达可能不会对Groq当前一代LPU采取立即行动,此次交易更可能是为长远技术布局 [12]