Groq LP30
搜索文档
GTC 2026 – 推理王国扩张 --- GTC 2026 – The Inference Kingdom Expands
2026-03-25 10:51
GTC 2026 电话会议纪要关键要点总结 涉及的行业与公司 * 行业:人工智能 (AI) 基础设施、半导体、高性能计算 (HPC)、数据中心 * 公司:**英伟达 (Nvidia)**、Groq、三星 (Samsung Foundry)、台积电 (TSMC)、SK 海力士 (SK Hynix)、英特尔 (Intel)、Altera、Marvell、Alchip 等[1][3][4][5][6][10][20][24][38][78][79] 核心观点与论据 1. 英伟达的战略收购与技术整合 * 英伟达以 **200亿美元** 授权 Groq 的知识产权并吸纳其团队,功能上等同于收购,但避免了冗长的监管审批流程[10][11] * 此举使英伟达在交易宣布后不到四个月,就将 Groq 的 LPU 技术整合到其 Vera Rubin 推理堆栈中[10][11] * 战略目标是利用 LPU 的低延迟特性补充 GPU 的高吞吐量优势,实现“解耦解码”系统[12][13][27][28] 2. Groq LPU 架构与产品路线图 * **LPU 架构特点**:采用确定性硬件执行、单级暂存 SRAM、细粒度流水线设计,实现极低延迟(SRAM延迟 **5-20 ns**)和高带宽(**150 TB/s**),但 SRAM 容量有限(LPU3 为 **500MB**)[14][15][16][17][19][27][29][34][35] * **LPU 产品迭代**: * LPU 1:基于格芯 **14nm** 工艺,**230MB SRAM**,**750 TFLOPs INT8**[20][34] * LPU 2(未量产):设计用于三星 **SF4X** 节点,因 SerDes 问题失败[24][26][30] * **LPU 3 (LP30)**:基于三星 **SF4X** 节点,**500MB SRAM**,**1.2 PFLOPs FP8** 算力,无英伟达设计参与,SerDes 问题已修复[30][34][35] * LP35:LP30 的小幅更新,将整合 NVFP4 数值格式[30] * **LPU 4 (LP40)**:将由英伟达主导设计,采用台积电 **N3P** 工艺和 **CoWoS-R** 封装,支持 NVLink 协议,并计划使用 SK 海力士的混合键合 DRAM 扩展片上内存[38][39] * **制造优势**:采用三星 SF4X 节点生产 LPU,使英伟达能够在不占用其宝贵的台积电 **N3** 产能和 **HBM** 配额的情况下增加产量,带来增量收入[36][37] 3. 推理系统创新:注意力与前馈网络解耦 (AFD) * **原理**:将 LLM 推理中内存密集、状态化的 **Attention** 操作映射到拥有大容量 HBM 的 GPU 上执行,而将无状态、计算密集的 **FFN** 操作映射到低延迟的 LPU 上执行[27][28][45][46][56][57] * **优势**:针对稀疏的混合专家 (MoE) 模型,解耦可以提升 GPU 的 KV 缓存容量和专家平均处理的 Token 数,从而提高系统整体效率[53][54] * **挑战与优化**:GPU 与 LPU 间的 Token 路由可能成为瓶颈,采用“乒乓流水线并行”技术来隐藏通信延迟[59][60][62][63] 4. 投机解码 (Speculative Decoding) 与 LPU 的应用 * **原理**:使用小型草稿模型或多 Token 预测 (MTP) 层在 LPU 上快速生成候选 Token,再由主模型(GPU)快速验证,通常能将每步解码输出提升 **1.5 到 2 倍**[68][69][70][71] * **LPU 的角色**:利用其低延迟特性,进一步节省延迟并提高吞吐量[68][71] * **内存支持**:LPU 可通过 LPX 计算托盘上的 FPGA 访问高达 **256 GB** 的 DDR5 内存,以支持草稿模型或 MTP 层所需的 KV 缓存[74][89][90] 5. LPX 机架系统与网络架构 * **系统配置**:量产版 LPX 机架预计包含 **16个 2U 计算托盘**,每个托盘含 **16个 LPU**、**2个 Altera FPGA**、**1个 Intel Granite Rapids CPU** 和 **1个 BlueField-4** 前端模块(客户可替换)[75][77][78][79] * **网络分层**: * **纵向扩展 (Scale-up) C2C 网络**:用于 LPU 间高速互连,每个机架总带宽 **640TB/s**[92][93] * 节点内:16个 LPU 通过 PCB 走线实现全互连网格,每个链路 **4x100G**[96][97] * 节点间/机架内:通过铜缆背板连接,每个 LPU 有 **15x2x100G** 链路[101] * 机架间:通过 OSFP 笼子(可能使用 AEC 或光模块)连接最多 4 个机架,每个 LPU 有 **4x100G** 链路[108][109] * **横向扩展 (Scale-out) 网络**:通过 **Spectrum-X** 以太网交换机连接 LPU 与 GPU,用于解耦解码系统[86][91][92] * **FPGA 的关键作用**:作为“织网扩展逻辑”,负责协议转换(C2C 转以太网/PCIe)、系统控制、并提供额外的 **256GB DRAM** 用于 KV 缓存[86][87][89][90] 6. 英伟达 CPO(共封装光学)路线图 * **Rubin 世代**: * NVL72 (Oberon):机架内全铜缆扩展[113][120] * NVL144 (Kyber):机架内全铜缆扩展[121] * **NVL576**:由 **8个 Oberon 机架** 通过 **CPO** 互连构成,机架内部仍为铜缆。初期为小批量测试[113][114][122][152][154][156] * **Feynman 世代**: * NVL72 / NVL144:机架内预计全铜缆[121] * **NVL1152**:由 **8个 Kyber 机架** 通过 **CPO** 互连构成。关于机架内使用铜缆还是 CPO 存在分歧,但机架间确定使用 CPO[115][116][121][187] * **战略**:尽可能使用铜缆,必要时(如跨机架大规模互连)才使用光学/CPO[117] 7. Oberon 与 Kyber 机架架构更新 * **Kyber 机架更新**:计算密度提升,每个计算刀片从 2 GPU + 2 CPU 变为 **4个 Rubin Ultra GPU + 2个 Vera CPU**。机架总 GPU 数仍为 **144个**,但插槽箱从 4 个减少为 2 个[124][125] * **网络连接**:每个 Kyber 机架使用 **72个 NVLink 7.0 交换芯片**,每个提供 **28.8Tbit/s** 聚合带宽。GPU 通过铜缆架空线与中板上的交换机连接[129][134][135][139][140] * **更大规模系统**: * **NVL288**:概念阶段,可能通过铜缆背板连接两个 Kyber 机架,需要更高基数的交换机[144][145][146] * **NVL576**:确认作为 Rubin Ultra 的扩展选项[152] 8. Vera ETL256 高密度 CPU 机架 * **设计目标**:解决 AI 工作负载中 CPU 日益成为瓶颈的问题,为 GPU 集群提供高密度数据处理和编排能力[158][159] * **关键规格**:单机架容纳 **256颗 Vera CPU**,采用液冷。通过紧密封装使机架内全部使用铜缆互连,以节省成本[160][161][165] * **网络架构**:采用 **Spectrum-X** 多平面拓扑,通过 4 个交换机托盘实现机架内 **256颗 CPU** 的扁平化全互连以太网网络[162][163][164][165] 9. 存储与数据平台:CMX 与 STX * **CMX (Context Memory Storage)**:英伟达的推理上下文内存存储平台,本质上是基于 **BlueField-4 DPU** 的存储服务器,用于将 KV 缓存卸载到 NVMe 存储层,以支持长上下文工作负载[167][169][170][172][173] * **STX**:基于 CMX 的参考存储机架架构。每个 STX 机架包含 **32颗 Vera CPU**、**64个 CX-9 NIC** 和 **64个 SOCAMM 模块**,明确了集群存储层的标准化设计[175][178][181][182] * **战略意图**:在占领计算和网络层后,英伟达正通过 BlueField-4、CMX、STX 向存储、软件和基础设施运营层扩展[185] 10. Feynman 平台前瞻与供应链影响 * **技术创新**:Feynman 平台将集成混合键合/SoIC、**A16** 工艺、**CPO** 和定制化 **HBM** 等多项先进技术[157] * **网络拓扑可能性**:为实现 NVL1152,正在探索两种机架间 CPO 互连拓扑:类似 Oberon 的两层 CLOS 网络,或使用 OCS 的可重构 Dragonfly 拓扑[187][194][195] * **技术挑战**:若在机架内继续使用铜缆并实现带宽翻倍,需要攻克 **448Gbit/s** 单向 SerDes 的技术难题[189][190] * **供应链影响**:LPX 系统、更新的 Kyber 机架等新产品的推出,将对相关元器件(如高端 PCB、连接器、线缆、光模块/CPO、存储设备)供应商产生重大影响[186][197][199] 其他重要但可能被忽略的内容 * **Groq 的历史问题**:LPU 2 因使用 Marvell 的 SerDes IP 无法达到 **112G** 速度而失败,LPU 3 已更换供应商并修复此问题[26][30] * **LPU 的算力定位**:LPU 的矩阵乘法算力(**1.2 PFLOPs FP8**)仅是 GPU 的一小部分,其核心价值在于低延迟而非峰值算力[34] * **FPGA 的替代方案**:超大规模云服务商客户可能会在 LPX 等系统中使用自己的前端网卡,而非英伟达的 BlueField[79] * **路线图的不确定性**:尤其是 Feynman 世代 NVL1152 的最终架构(机架内铜缆 vs. CPO)以及 NVSwitch 7 的实际规格(带宽与基数)仍可能变化[116][119][150] * **英伟达的生态扩张**:通过 STX 联合了几乎所有主流存储厂商,展示了其构建全栈解决方案和行业标准的野心[183][184][185]
深度解读英伟达芯片路线图
半导体行业观察· 2026-03-20 08:56
英伟达产品路线图演进 - 公司在2012年至2017年间定期发布数据中心GPU路线图,但随后数年路线图转为内部保密,直到2023年底才重新发布新时代路线图[2] - 2023年10月的路线图首次揭示了人工智能系统组件的年度更新计划,当时2025年产品曾用代号GX200、GX200NVL、X100和X40,后证实为“Blackwell”GPU[3] - 公司在2024年6月公布了到2027年的数据中心路线图,引入了“Vera”CV100 Arm服务器CPU和“Rubin”R200 GPU加速器,随后在GTC大会上更新了到2028年的路线图[3] 市场地位与财务预测 - 公司在人工智能训练领域占据绝对优势,在推理领域也具备竞争力[4] - 根据IDC和Gartner数据估算,2025年全球服务器市场规模在4200亿美元到4500亿美元之间,其中流向公司的物料成本收入约为1900亿美元[5] - 基于公司技术的机器(由OEM/ODM销售)在2025年的收入可能在2750亿美元到3250亿美元之间,占整个系统市场份额的61%到77%[5] - 人工智能系统几乎所有的利润都流向了公司,其毛利润、营业利润和净利润数据明确体现了这一点[5] 2026年技术路线图细节 - 2026年路线图明确提及了“Oberon”和“Kyber”机架的演进[8] - “Vera”Arm服务器CPU拥有88个定制的“Olympus”核心,支持双线程,配备1.8 TB/秒的NVLink芯片间互连,用于连接“Rubin”R200 GPU加速器[9] - “Rubin”R200 GPU由两个芯片通过NVLink C2C连接,配备288 GB HBM4显存,其张量核心可提供50 petaflops的FP4性能[9] - “Blackwell”B200和B300 GPU配备288 GB HBM3E显存,FP4性能分别为10 petaflops和15 petaflops[9] - “Oberon”机架式服务器预计采用与Blackwell架构相同的NVL72系统,配备72个GPU插槽和36个CPU插槽[9] - “Groq LP30”将采用专用机架包装,配备标准的Spectrum以太网主干网[9] - “Oberon ETL256”配置意味着256个Vera CPU或256个Groq LPU可以连接到该背板[10] - 每个“Groq sled”有四个插槽,每个插槽装有八个LP30处理器[10] - 一组LP30处理器机架被称为“Groq 3 LPX”系统,包含32个滑橇,总计拥有315 petaflops的FP8推理计算能力,256个芯片上配备128 GB SRAM,总SRAM带宽为40 PB/秒,Spectrum ETL背板总扩展带宽为640 TB/秒[12] - “Vera ETL”机架可容纳32个机架单元,总计256个CPU,22,528个核心,512 TB主内存,以及300 TB/秒的内存带宽[13] 2027-2028年及未来技术展望 - 2027年计划推出“Rubin Ultra”GPU(暂定名R300),将插槽内GPU芯片数量从两颗增加到四颗,提供100 petaflops的FP4性能[16] - “Kyber”机架将GPU插槽数量翻倍至144个,采用铜质中板,为四颗Rubin GPU芯片配备16组HBM4E显存,总容量1TB,读写速度32TB/秒[16] - 2028年计划推出采用CPO(共封装光学)技术的NVLink 8端口[20] - 2028年的“Rosa-Feynman”系统将搭载“Groq LP40”计算引擎,并为其添加NVLink端口[19] - “Feynman”GPU预期将采用芯片堆叠技术和定制HBM内存[22] - 随着NVSwitch 8 CPO推出,在多层网络下,公司的GPU域大小预计将达到1152个GPU[21] 互连技术发展 - NVLink带宽持续翻倍:Rubin GPU的NVLink 6端口带宽为3,600 GB/秒,Rubin Ultra的NVLink 7端口带宽为7,200 GB/秒[18] - 2029年规划的NVLink 9 CPO带宽预计达到28,800 GB/秒[17] - 在Rubin系列中,Spectrum-6以太网ASIC将采用共封装光器件[19] - 公司可能在未来的Groq LPU中考虑采用晶圆级ASIC设计,以消除芯片间C2C互连的缓冲需求[17] 产品命名与系统架构 - 基于BlueField-4 DPU的存储机架被称为BlueField STX机架,基于Spectrum-6交换机的机架被称为Spectrum-5 SPX机架[15] - 基于Vera CPU的计算处理机架可能被命名为Vera CPX机架[15] - 这些系统都基于MGX模块化服务器架构[15]
黄仁勋:龙虾就是新操作系统,英伟达7种芯片拼出算力怪兽,放话2027营收万亿美元
36氪· 2026-03-17 15:27
GTC 2026会议核心观点 - 英伟达GTC 2026大会规模空前,有450家企业赞助、1000场技术分会、2000位演讲者、110台机器人,标志着其已成为AI行业的年度盛会[1] - 公司通过回顾25年发展历程,系统阐述了从游戏显卡到当前AI算力与token经济的演进逻辑,核心论点是AI从感知、生成、推理到执行的每一步都将生成更多token并消耗更多算力,从而驱动巨大的算力需求[4] - 公司宣布,基于Blackwell和Rubin平台到2027年的订单,其预计营收至少将达到1万亿美元,这一数字较去年GTC上提出的5000亿美元高确信需求翻倍,且公司认为实际需求会更高[4] 公司财务与市场预期 - 公司预计到2027年营收至少达到1万亿美元,该预测覆盖Blackwell和Rubin平台到2027年的订单[4] 新一代AI计算系统:Vera Rubin - Vera Rubin是英伟达有史以来最复杂的AI计算系统,采用7种芯片、5种机架垂直集成,包含Rubin GPU、Vera CPU、Groq LP30、BlueField 4 DPU、CX9网卡、NVLink Switch及Spectrum X CPO交换机[15] - Rubin GPU采用全新架构,支持NVLink 72全互联,提供3.6 exaflops算力及260TB/s全对全带宽[15] - Vera CPU采用LPDDR5,单线程性能和能效比出色,已发展成一项价值数十亿美元的业务[15] - 系统采用100%液冷方案,互联在液冷模块内部做板级/背板式集成,使机架安装时间从两天缩短至两小时[21][22] - 采用共封装光学(CPO)技术,通过CoUP封装工艺将光学器件直接封装到芯片上,以突破传统铜缆的物理限制,实现更高能效和更远传输[24][25][26] - 在同一座1GW数据中心中,从Grace Blackwell到Vera Rubin + Groq,token生成速率从200万/秒提升至7亿/秒,两年提升350倍,远超摩尔定律同期约1.5倍的提升[20] 芯片性能与“Token工厂”经济学 - 公司提出“Token工厂”商业模型,以每瓦token吞吐量(产能)和每秒token生成速率(AI“聪明程度”)为核心指标,并划分了从免费层到顶级层($150/百万Token)的四个服务层级[9] - Grace Blackwell NVLink 72的每瓦token吞吐量比上一代Hopper H200高出50倍[11] - 每瓦性能是决定token成本的关键,在固定功率的数据中心内,更高的每瓦token产出意味着更低的成本[12] - Vera Rubin平台的目标是将每瓦token吞吐量在下一代基础上再提高2-10倍[12] 推理架构创新:GPU与Groq LPU协同 - 公司通过收购Groq获得LPU(语言处理单元)技术,其采用确定性数据流处理器架构,拥有500MB片上SRAM,专为推理设计[16][29] - 公司采用分离式推理架构,通过Dynamo推理框架将计算任务拆分:Pre-fill和attention计算量大,交给Vera Rubin处理;decode阶段对延迟敏感,则卸载给Groq LPU[33] - 该协同方案在最高价值的推理层级上,可再提升35倍吞吐量,并解锁了每秒千token级别的极速生成能力[35] - 公司建议,对于高吞吐工作负载可使用100% Vera Rubin;若有大量编程、工程级token生成需求,可将25%的数据中心功率分配给Groq[35] - Groq 3芯片由三星代工,已量产并预计Q3出货;Vera Rubin首个机架已在微软Azure云上运行[35] 下一代计算平台与未来展望 - 公司预告了下一代计算架构Feynman(费曼),将带来全新的GPU、LPU(LP40)和CPU Rosa,以及BlueField 5 DPU和SuperNIC CX10[47] - Feynman将通过Kyber技术首次同时支持铜线与光学封装的水平扩展,核心突破在于提供更高的容量与带宽[47] - 公司正与合作伙伴联合开发名为“SpaceOne”的太空数据中心计算机,旨在解决太空中的辐射散热问题,拓展“太空算力”[47][49][50] - 公司强调计算架构将每年更新[44] 软件生态与Agent时代 - 公司将OpenClaw定义为AI Agent时代的操作系统,类比Windows之于PC、Linux之于服务器,认为其开源了Agent计算机的操作系统[38][40] - OpenClaw具备资源管理、调度系统和多模态I/O能力,能调用大模型、访问文件系统、使用工具并执行自动化任务[38][40] - 公司断言,每家SaaS公司都将转变为Agent-as-a-Service公司,企业IT逻辑即将被改写[40] - 针对企业安全需求,公司与OpenClaw合作推出企业版NeMo Claw,增加了策略引擎、网络护栏和隐私路由器[42] - 公司描绘未来企业场景:工程师将拥有年度Token预算,其价值可达年薪的一半,Token额度已成为硅谷招聘的新筹码[44]
黄仁勋:龙虾就是新操作系统!英伟达7种芯片拼出算力怪兽,放话2027营收万亿美元
量子位· 2026-03-17 06:12
英伟达GTC 2026核心观点 - 英伟达GTC大会规模空前,有450家企业赞助、1000场技术分会、2000位演讲者、110台机器人,已成为AI行业的年度盛会 [1] - 公司CEO黄仁勋在演讲中系统阐述了从游戏显卡到当前AI算力与Token经济的发展历程,并正式提出到2027年营收预计至少达到1万亿美元的高阶目标 [3][5][6] - 公司股价在演讲期间与现场观众情绪一同高涨 [7] 公司财务与市场前景 - 公司预计到2027年营收至少达到1万亿美元,这一数字覆盖了Blackwell和Rubin平台到2027年的订单,相比去年GTC提出的5000亿美元“高确信需求”翻倍 [5][6] - 公司对实际需求持乐观态度,认为1万亿美元是保守预计,实际需求会更高 [6] Token工厂经济学与商业模式 - 公司提出了一套以“Token吞吐量”(每瓦产出Token数)和“Token速率”(每秒生成Token数)为核心的商业模型与分析框架 [12][13][14] - 该模型将AI服务分为四个层级:免费层(高吞吐、低速率,用于获客)、中间层(3-6美元/百万Token,服务普通用户)、高级层(45美元/百万Token,用于大模型深度推理)、顶级层(150美元/百万Token,用于超长研究任务及关键路径实时响应) [15] - 公司强调“每瓦性能决定一切”,因为在数据中心功率存在物理约束的条件下,更高的每瓦Token产出意味着更低的Token成本 [19] Vera Rubin下一代AI计算系统 - Vera Rubin被定义为公司有史以来最复杂的AI计算系统,是一个包含7种芯片、5种机架的垂直集成、端到端优化的巨型计算机 [24][26][27] - 系统核心组件包括:采用全新架构的Rubin GPU(支持NVLink 72全互联,算力达3.6 exaflops,全对全带宽260TB/s)、全新数据中心CPU Vera、第三代芯片Groq LP30、BlueField 4 DPU + CX9网卡、NVLink Switch以及全球首款量产的共封装光学(CPO)交换机Spectrum X [27][28] - 系统性能实现巨大飞跃:在同一座1GW数据中心内,从Grace Blackwell到Vera Rubin + Groq,Token生成速率从200万/秒跃升至7亿/秒,两年提升350倍,远超同期摩尔定律约1.5倍的提升 [30][31] - 系统通过两大创新突破散热与互联瓶颈:采用100%液冷方案,并在液冷模块内部实现板级/背板式集成互联,使机架安装时间从两天缩短至两小时;采用CPO技术,将光学器件直接封装到芯片上,消除光模块和铜线中转,实现更高能效和更远传输距离 [33][34][35][36][38][40] - 公司强调铜缆与光学技术并非二选一,未来需要同时扩大铜缆、光芯片及CPO的产能 [41] - 从十年前的DGX-1(8块Pascal GPU,170 TFLOPS)到如今的Vera Rubin NVLink 72(3.6 ExaFLOPS),公司算力在十年间增长了四千万倍 [42][43][44] Groq与分离式推理架构 - 公司于2025年底收购了以LPU(语言处理单元)著称的推理芯片公司Groq,其芯片采用确定性数据流处理器架构,片上集成500MB SRAM,专为推理设计 [50] - 公司提出“分离式推理”架构,通过Dynamo推理框架将推理流水线拆分:计算量大的Pre-fill和attention阶段交给Vera Rubin处理,而对带宽和延迟敏感的decode阶段(Token生成)则卸载给Groq处理 [56][57] - 两种极端不同的处理器通过以太网紧密耦合,可将延迟减半 [58] - 公司给出配比建议:高吞吐工作负载可100%使用Vera Rubin;若有大量编程、工程级Token生成需求,可将数据中心25%的功率分配给Groq [60] - Groq 3芯片由三星代工,已量产并预计Q3出货;Vera Rubin首个机架已在微软Azure云上运行 [61][62] OpenClaw与AI Agent时代 - 公司CEO将OpenClaw类比为AI时代的Linux,定义其本质为Agent计算机的操作系统,具备资源管理、调度系统和I/O系统等核心功能 [67][68][69][70] - 公司断言每一次平台转移(如Windows→PC,Linux→服务器)都会催生改变世界的公司,并认为“每家SaaS公司都将变成Agent-as-a-Service公司”,企业IT逻辑即将被改写 [71][72][73][74] - 针对企业级应用的安全与治理需求,公司与OpenClaw合作推出企业版NeMo Claw,增加了策略引擎、网络护栏、隐私路由器等功能 [76] - 公司描绘了未来企业的新范式:工程师将拥有年度Token预算,Token额度甚至可能成为硅谷招聘的新筹码 [79][80][81] 未来技术路线图与前瞻 - 公司预告了下一代计算架构Feynman(费曼),将带来全新的GPU、LPU(LP 40)和CPU Rosa [81][84] - Feynman架构将首次同时支持铜线与光学封装的水平扩展,其核心突破在于提供更高的容量与带宽 [85][86] - 公司正与合作伙伴联合开发名为“英伟达Space One”的太空数据中心计算机,探索“太空算力”,以应对太空环境中独特的辐射散热挑战 [87][89][90][91]