Workflow
Speculative Decoding
icon
搜索文档
GTC 2026 – 推理王国扩张 --- GTC 2026 – The Inference Kingdom Expands
2026-03-25 10:51
GTC 2026 电话会议纪要关键要点总结 涉及的行业与公司 * 行业:人工智能 (AI) 基础设施、半导体、高性能计算 (HPC)、数据中心 * 公司:**英伟达 (Nvidia)**、Groq、三星 (Samsung Foundry)、台积电 (TSMC)、SK 海力士 (SK Hynix)、英特尔 (Intel)、Altera、Marvell、Alchip 等[1][3][4][5][6][10][20][24][38][78][79] 核心观点与论据 1. 英伟达的战略收购与技术整合 * 英伟达以 **200亿美元** 授权 Groq 的知识产权并吸纳其团队,功能上等同于收购,但避免了冗长的监管审批流程[10][11] * 此举使英伟达在交易宣布后不到四个月,就将 Groq 的 LPU 技术整合到其 Vera Rubin 推理堆栈中[10][11] * 战略目标是利用 LPU 的低延迟特性补充 GPU 的高吞吐量优势,实现“解耦解码”系统[12][13][27][28] 2. Groq LPU 架构与产品路线图 * **LPU 架构特点**:采用确定性硬件执行、单级暂存 SRAM、细粒度流水线设计,实现极低延迟(SRAM延迟 **5-20 ns**)和高带宽(**150 TB/s**),但 SRAM 容量有限(LPU3 为 **500MB**)[14][15][16][17][19][27][29][34][35] * **LPU 产品迭代**: * LPU 1:基于格芯 **14nm** 工艺,**230MB SRAM**,**750 TFLOPs INT8**[20][34] * LPU 2(未量产):设计用于三星 **SF4X** 节点,因 SerDes 问题失败[24][26][30] * **LPU 3 (LP30)**:基于三星 **SF4X** 节点,**500MB SRAM**,**1.2 PFLOPs FP8** 算力,无英伟达设计参与,SerDes 问题已修复[30][34][35] * LP35:LP30 的小幅更新,将整合 NVFP4 数值格式[30] * **LPU 4 (LP40)**:将由英伟达主导设计,采用台积电 **N3P** 工艺和 **CoWoS-R** 封装,支持 NVLink 协议,并计划使用 SK 海力士的混合键合 DRAM 扩展片上内存[38][39] * **制造优势**:采用三星 SF4X 节点生产 LPU,使英伟达能够在不占用其宝贵的台积电 **N3** 产能和 **HBM** 配额的情况下增加产量,带来增量收入[36][37] 3. 推理系统创新:注意力与前馈网络解耦 (AFD) * **原理**:将 LLM 推理中内存密集、状态化的 **Attention** 操作映射到拥有大容量 HBM 的 GPU 上执行,而将无状态、计算密集的 **FFN** 操作映射到低延迟的 LPU 上执行[27][28][45][46][56][57] * **优势**:针对稀疏的混合专家 (MoE) 模型,解耦可以提升 GPU 的 KV 缓存容量和专家平均处理的 Token 数,从而提高系统整体效率[53][54] * **挑战与优化**:GPU 与 LPU 间的 Token 路由可能成为瓶颈,采用“乒乓流水线并行”技术来隐藏通信延迟[59][60][62][63] 4. 投机解码 (Speculative Decoding) 与 LPU 的应用 * **原理**:使用小型草稿模型或多 Token 预测 (MTP) 层在 LPU 上快速生成候选 Token,再由主模型(GPU)快速验证,通常能将每步解码输出提升 **1.5 到 2 倍**[68][69][70][71] * **LPU 的角色**:利用其低延迟特性,进一步节省延迟并提高吞吐量[68][71] * **内存支持**:LPU 可通过 LPX 计算托盘上的 FPGA 访问高达 **256 GB** 的 DDR5 内存,以支持草稿模型或 MTP 层所需的 KV 缓存[74][89][90] 5. LPX 机架系统与网络架构 * **系统配置**:量产版 LPX 机架预计包含 **16个 2U 计算托盘**,每个托盘含 **16个 LPU**、**2个 Altera FPGA**、**1个 Intel Granite Rapids CPU** 和 **1个 BlueField-4** 前端模块(客户可替换)[75][77][78][79] * **网络分层**: * **纵向扩展 (Scale-up) C2C 网络**:用于 LPU 间高速互连,每个机架总带宽 **640TB/s**[92][93] * 节点内:16个 LPU 通过 PCB 走线实现全互连网格,每个链路 **4x100G**[96][97] * 节点间/机架内:通过铜缆背板连接,每个 LPU 有 **15x2x100G** 链路[101] * 机架间:通过 OSFP 笼子(可能使用 AEC 或光模块)连接最多 4 个机架,每个 LPU 有 **4x100G** 链路[108][109] * **横向扩展 (Scale-out) 网络**:通过 **Spectrum-X** 以太网交换机连接 LPU 与 GPU,用于解耦解码系统[86][91][92] * **FPGA 的关键作用**:作为“织网扩展逻辑”,负责协议转换(C2C 转以太网/PCIe)、系统控制、并提供额外的 **256GB DRAM** 用于 KV 缓存[86][87][89][90] 6. 英伟达 CPO(共封装光学)路线图 * **Rubin 世代**: * NVL72 (Oberon):机架内全铜缆扩展[113][120] * NVL144 (Kyber):机架内全铜缆扩展[121] * **NVL576**:由 **8个 Oberon 机架** 通过 **CPO** 互连构成,机架内部仍为铜缆。初期为小批量测试[113][114][122][152][154][156] * **Feynman 世代**: * NVL72 / NVL144:机架内预计全铜缆[121] * **NVL1152**:由 **8个 Kyber 机架** 通过 **CPO** 互连构成。关于机架内使用铜缆还是 CPO 存在分歧,但机架间确定使用 CPO[115][116][121][187] * **战略**:尽可能使用铜缆,必要时(如跨机架大规模互连)才使用光学/CPO[117] 7. Oberon 与 Kyber 机架架构更新 * **Kyber 机架更新**:计算密度提升,每个计算刀片从 2 GPU + 2 CPU 变为 **4个 Rubin Ultra GPU + 2个 Vera CPU**。机架总 GPU 数仍为 **144个**,但插槽箱从 4 个减少为 2 个[124][125] * **网络连接**:每个 Kyber 机架使用 **72个 NVLink 7.0 交换芯片**,每个提供 **28.8Tbit/s** 聚合带宽。GPU 通过铜缆架空线与中板上的交换机连接[129][134][135][139][140] * **更大规模系统**: * **NVL288**:概念阶段,可能通过铜缆背板连接两个 Kyber 机架,需要更高基数的交换机[144][145][146] * **NVL576**:确认作为 Rubin Ultra 的扩展选项[152] 8. Vera ETL256 高密度 CPU 机架 * **设计目标**:解决 AI 工作负载中 CPU 日益成为瓶颈的问题,为 GPU 集群提供高密度数据处理和编排能力[158][159] * **关键规格**:单机架容纳 **256颗 Vera CPU**,采用液冷。通过紧密封装使机架内全部使用铜缆互连,以节省成本[160][161][165] * **网络架构**:采用 **Spectrum-X** 多平面拓扑,通过 4 个交换机托盘实现机架内 **256颗 CPU** 的扁平化全互连以太网网络[162][163][164][165] 9. 存储与数据平台:CMX 与 STX * **CMX (Context Memory Storage)**:英伟达的推理上下文内存存储平台,本质上是基于 **BlueField-4 DPU** 的存储服务器,用于将 KV 缓存卸载到 NVMe 存储层,以支持长上下文工作负载[167][169][170][172][173] * **STX**:基于 CMX 的参考存储机架架构。每个 STX 机架包含 **32颗 Vera CPU**、**64个 CX-9 NIC** 和 **64个 SOCAMM 模块**,明确了集群存储层的标准化设计[175][178][181][182] * **战略意图**:在占领计算和网络层后,英伟达正通过 BlueField-4、CMX、STX 向存储、软件和基础设施运营层扩展[185] 10. Feynman 平台前瞻与供应链影响 * **技术创新**:Feynman 平台将集成混合键合/SoIC、**A16** 工艺、**CPO** 和定制化 **HBM** 等多项先进技术[157] * **网络拓扑可能性**:为实现 NVL1152,正在探索两种机架间 CPO 互连拓扑:类似 Oberon 的两层 CLOS 网络,或使用 OCS 的可重构 Dragonfly 拓扑[187][194][195] * **技术挑战**:若在机架内继续使用铜缆并实现带宽翻倍,需要攻克 **448Gbit/s** 单向 SerDes 的技术难题[189][190] * **供应链影响**:LPX 系统、更新的 Kyber 机架等新产品的推出,将对相关元器件(如高端 PCB、连接器、线缆、光模块/CPO、存储设备)供应商产生重大影响[186][197][199] 其他重要但可能被忽略的内容 * **Groq 的历史问题**:LPU 2 因使用 Marvell 的 SerDes IP 无法达到 **112G** 速度而失败,LPU 3 已更换供应商并修复此问题[26][30] * **LPU 的算力定位**:LPU 的矩阵乘法算力(**1.2 PFLOPs FP8**)仅是 GPU 的一小部分,其核心价值在于低延迟而非峰值算力[34] * **FPGA 的替代方案**:超大规模云服务商客户可能会在 LPX 等系统中使用自己的前端网卡,而非英伟达的 BlueField[79] * **路线图的不确定性**:尤其是 Feynman 世代 NVL1152 的最终架构(机架内铜缆 vs. CPO)以及 NVSwitch 7 的实际规格(带宽与基数)仍可能变化[116][119][150] * **英伟达的生态扩张**:通过 STX 联合了几乎所有主流存储厂商,展示了其构建全栈解决方案和行业标准的野心[183][184][185]
Google首席科学家万字演讲回顾AI十年:哪些关键技术决定了今天的大模型格局?
机器人圈· 2025-04-30 17:10
AI技术发展趋势 - 机器学习彻底改变对计算机能力的认知和期待,过去12-14年间计算资源、数据量和模型规模的扩大持续带来性能提升[5] - 算法和模型架构改进的影响超过硬件进步,导致计算范式从传统CPU为中心发生转变[5] - 神经网络和反向传播是深度学习革命的核心要素,2012年训练出规模空前的大型神经网络实现70%性能提升[7] - 2013年开发的Word2Vec词嵌入模型展现出语义相近词语向量聚集和向量方向具有语义意义两大特性[8] - 2014年开发的序列到序列学习模型为机器翻译等任务提供端到端解决方案[8] - 2017年提出的Transformer架构相比LSTM仅需1/10到1/100计算量就能取得更优性能[9] - 2018年开始流行利用自监督数据进行大规模语言建模,产生海量训练数据[10] - 2021年开发出将图像处理整合进Transformer框架的方法,统一文本和图像处理[10] - 2017年开发的混合专家模型(MoE)实现显著算法优势,训练计算成本降低8倍或相同成本下准确率提升[10] 硬件与基础设施创新 - 为神经网络推理构建定制化硬件TPU,比同期CPU和GPU快15到30倍,能效提升30到80倍[9] - 最新Ironwood Pod包含9216个芯片,总算力达42.5 TFLOPS,相比2018年首个训练Pod计算能力提升约3600倍[9] - 开发Pathways系统简化大规模计算执行,为开发者提供单一Python进程抽象层[11] - 推测解码技术利用小型"草稿模型"预测多个Token再由大模型验证,提高解码效率[13] - 知识蒸馏技术将大模型知识迁移到小模型,使用3%训练数据即可达到接近全量数据训练的效果[12] 多模态模型发展 - Gemini项目致力于打造全球最强多模态模型,能理解语言、视觉输入、音频并生成内容[16] - Gemini 1.5引入极长上下文长度,可处理百万Token内容如50篇研究论文或很厚的书[16] - 模型在编码能力、数学、多模态等方面表现优异,在LM Arena平台的Elo评分显著提高[16] - 多模态应用包括代码修复、极低资源语言翻译、视频理解与摘要、历史数据数字化等[20][21] - 通过高级自然语言提示生成代码,如使用P5js探索Mandelbrot集的可视化程序[21] 行业影响与未来方向 - 大语言模型正成为强大通用工具,能将专家知识普及给广大民众[23] - AI安全需要技术和政策监管双管齐下,包括检测错误信息和促进建设性讨论[24] - 数据尚未成为瓶颈,仍有海量未利用数据如视频数据,且可通过改进训练方法提升数据利用效率[25] - 下一个重大挑战是模型自主完成复杂任务的能力,如分解50个子步骤调用多种工具完成相当于一个月工作量的目标[26]