Groq 3 LPU - 财报，业绩电话会，研报，新闻

Groq 3 LPU

搜索文档

银河证券· 2026-03-19 17:18

报告行业投资评级 - 通信行业评级为“推荐”，且为“维持”评级 [1] 报告的核心观点 - 英伟达引领AI基建时代，其推出的全新AI超算平台Vera Rubin及整合的LPU技术将拓展推理边界，算力军备竞赛趋势延续 [1][3] - 英伟达创始人兼CEO黄仁勋将公司2025-2027年在AI算力芯片方面的累计营业收入指引上调至至少1万亿美元，较2025年GTC大会对2025-2026年的预测翻倍 [3] - 过去三年AI产业里程碑产品推动单个工作负载计算量提升约1万倍，整体使用量提升约100倍，彰显算力高景气 [3] - 液冷技术确定性加强，Vera Rubin采用100%液冷设计，黄仁勋预测传统IDC液冷渗透率会超过50%，AIDC最终会达到100% [3] - 投资建议关注光模块与CPO、光芯片、液冷、太空算力等产业链相关赛道 [3] 根据相关目录分别进行总结英伟达新产品与性能 - 英伟达在2026年GTC大会正式推出全新AI超算平台Vera Rubin，集成Vera CPU、Rubin GPU、NVLink 6交换机等共7款芯片，并新纳入Groq 3 LPU [3] - Rubin架构GPU将于2026年下半年量产，采用台积电3nm工艺，单GPU在NVFP4精度下训练算力达35 PFlops，推理算力达50 PFlops [3] - Rubin规模化训练与推理能效较Blackwell架构分别提升3.5倍与5倍 [3] - 在训练大型MoE模型时，Rubin所需GPU数量仅为Blackwell的1/4，同时每瓦推理Token吞吐量提升10倍 [3] - 在1GW的IDC内，采用Rubin平台的Token生成速率可达7亿/秒 [3] - 下一代架构Feynman同步问世，采用台积电1.6nm A16制程，首度引入芯片级光互联，较Rubin带宽密度提升10倍，传输能耗下降90% [3] LPU技术整合与推理市场 - 2025年12月英伟达斥资约200亿美元与Groq达成授权协议，其创始人兼CEO Jonathan Ross加入英伟达负责LPU技术整合 [3] - LPU采用基于SRAM的片上存储以显著降低时延，顺应AI Agent、物理AI等即时处理应用趋势，并与CUDA生态高度契合 [3] - LPU将作为“Token加速器”集成至Vera Rubin平台专攻解码，以保障在每百万Token 150美元以上的超高速层AI服务中的性能输出 [3] - 此举是对其他CSP大厂自研ASIC芯片抢占推理市场份额的有力回击 [3] - 由三星代工的Groq LP30芯片已进入量产阶段，预计2026年第三季度出货 [3] - Groq3 LPX机架上的LPU密度自64个增加至256个后，出货量预期也随之大幅上修 [3] 液冷与太空算力发展 - Vera Rubin平台采用100%液冷设计，使用45℃温水冷却，安装时间从2天缩短至2小时 [3] - Vera Rubin升级到NVL 144后将抬高单机柜液冷组件价值量 [3] - 英伟达推出Space-1 Vera Rubin模块，专为尺寸、重量、功率受限的太空环境设计，可为轨道IDC等提供边缘AI推理服务，较H100实现25倍的性能飞跃 [3] 投资建议关注标的 - 报告建议关注以下产业链相关公司 [3] - 光模块与CPO：中际旭创、新易盛、天孚通信、光迅科技、华工科技等 - 光芯片：仕佳光子、源杰科技、长光华芯等 - 液冷：英维克、阿莱德等 - 太空算力：普天科技、通宇通讯等

电力设备行业：GTC 2026点评报告：柜内电源功率提升，全液冷时代来临

银河证券· 2026-03-19 14:28

报告行业投资评级 - 行业评级：推荐（维持）[1] 报告核心观点 - 英伟达GTC 2026大会揭示了AI算力基础设施向更高功率密度和全液冷方案演进的核心趋势，柜内电源功率显著提升与全液冷时代来临将驱动相关产业链投资机会[1][2] 行业进展总结 - AI行业正从生成式AI时代跨入推理式AI和智能体AI时代，推理及渠道训练成为核心计算需求，过去两年AI计算需求增加了约100万倍[2] - Token成为AI工厂的核心生产资料，吞吐效率（token/watt）和推理速度（Token生成速度）是核心指标[2] - 英伟达将2025年定义为“推理年”，旨在优化AI推理全流程以降低客户基础设施成本[2] 公司收入与产品进展总结 - 英伟达对Blackwell和Rubin产品线在2027年前的数据中心营收展望乐观，预计总额将超过1万亿美元，较2025年GTC大会披露的2026年前5000亿美元预期显著增长[2] - 正式发布Vera Rubin全栈AI算力平台系统，包含Vera CPU、Rubin GPU等七款芯片及五款机架[2] - 该平台系统使算力在10年内提升了4000万倍[2] - 产能进展顺利，微软Azure已部署首台Vera Rubin机架，供应链已实现每周数千台产能，每月可支撑多GW级AI工厂建设[2] 电源进展总结 - **柜内电源**：预计Vera Rubin NVL72采用4组Powershelf，每组功率110KW，由6个18.3KW电源组成，合计供电功率440KW，对比GB200/GB300 NVL72的264KW提升达60%以上，相关电源厂商单机柜价值量有望得到较大提升[2] - **柜外电源**：英伟达将全面普及800V高压直流供电、CPO光互联与高密度PCB，以推动数据中心PUE降至1.1以下[2] 液冷进展总结 - Vera Rubin采用100%液冷设计，使用45℃热水冷却，可减少机械冷却步骤，提升能源效率并降低冷却成本，但需要更高冷却流量的液冷系统[2][3] - Vera Rubin部署效率大幅提升，安装时间从传统2天缩短至2小时，显著提升可维护性[3] - 当前采用较传统液冷方案，后续更高功率芯片（如Rubin Ultra、Feynman）可能采用微通道、微流控及金刚石散热等新技术[3] 投资建议总结 - 建议关注以下五个方向的产业链公司：[3] 1. **柜内电源**：麦格米特、欧陆通、新雷能、铂科新材 2. **柜外电源**：金盘科技、伊戈尔、中恒电气、四方股份、特变电工、禾望电气、科华数据、科士达、优优绿能、通合科技、特锐德 3. **液冷方案及零部件**：英维克、申菱环境、高澜股份、飞龙股份、冰轮环境、银轮股份、中航光电、思泉新材、科创新源、同飞股份、川环科技、远东股份 4. **数据中心配储**：阳光电源、宁德时代、阿特斯、盛弘股份、海博思创 5. **备用电源（BBU/柴发/超容）**：亿纬锂能、蔚蓝锂芯、思源电气、江海股份、科泰电源、豪泰科技

Groq3LPU与GPU协同作战，系统架构如期升级

开源证券· 2026-03-19 10:55

行业投资评级 - 投资评级：看好（维持）[1] 报告核心观点 - 报告核心观点：Groq 3 LPU超预期发展及Rubin Ultra架构升级将深远影响AI服务器硬件，建议关注算力、互联、散热三大投资主线[6] 技术产品进展：Groq 3 LPU与LPX机架 - Groq 3 LPU单芯片性能跃升：集成500MB SRAM，提供150TB/s带宽，是HBM（22TB/s）的近7倍，精准契合带宽敏感型AI解码需求[3] - Groq 3 LPU算力为1.2 petaFLOPS（8位运算），而Rubin GPU算力为50 petaFLOPS（4位运算），前者以精简设计专精推理[3] - 英伟达将Groq 3 LPU整合为Groq 3 LPX机架，每个机架包含256个LPU，提供128 GB SRAM及40 PB/s推理带宽，芯片间通过640 TB/s扩展接口互联[4] - LPU与Rubin GPU结合后，推理吞吐量/功耗比提升35倍，有望重塑推理成本结构[4] - LPU芯片将由三星代工，量产时间从原计划提前至2026下半年[4] - 后续将推出支持NVFP4的Groq L35以丰富产品矩阵[3] 系统架构升级：Rubin Ultra与Kyber机架 - Rubin Ultra GPU配备高达1 TB HBM4e内存，单封装FP4推理算力达到100 PFLOPS，在内存容量和算力上实现翻倍式提升[5] - Rubin Ultra搭载全新的Kyber机架，全柜合计144个GPU（共计576个 die），采用计算节点垂直插入的颠覆性设计[5] - 架构采用中枢直连架构取代传统铜缆，其中Compute Tray上有4颗Rubin Ultra和2颗Vera CPU，其与Switch tray的连接通过正交背板完成[5] 投资建议与受益环节 - 投资建议关注算力、互联、散热三大主线[6] - PCB环节受益标的包括：沪电股份、胜宏科技、深南电路、景旺电子、鹏鼎控股等[6] - CCL环节受益标的包括：生益科技、南亚新材等[6] - 组装环节受益标的包括：工业富联等[6]

中金 | GTC 2026：推理时代已至，再绘AI硬件宏伟蓝图

中金点睛· 2026-03-19 08:11

核心观点 - AI推理正进入算力拐点，行业需求从“训练主导”向“推理驱动”范式转移，未来三年内推理所需算力有望实现10,000倍于ChatGPT初始版本的规模扩张 [1][6] - NVIDIA预测其数据中心业务收入将从2025-2026年的5,000亿美元跃升至2026-2027年的1万亿美元以上，增长源于AI推理需求的指数级增长及其全栈解决方案的深度渗透 [6][7] - AI硬件架构正从“单芯片堆算力”时代迈向面向推理场景的“系统级平台”时代，通过硬件异构、专芯专用和机柜协同来优化单位电力约束下的token产出，提升经济性 [7][28][31][33] AI推理范式与市场前景 - 由于模型尺寸、上下文长度及tokens生成扩展，AI推理需求进入指数级增长期，成为行业主要驱动力 [1][6] - NVIDIA认为，AI基础设施规划需从单一芯片升级为“整柜级”系统，并增加面向预填充与低延迟解码的协同解决方案 [1][7] - 在“Token经济学”框架下，平台化、异构化的硬件旨在提升客户投资回报率，AI算力硬件产业空间有望加速释放 [7] 芯片及存储：Vera Rubin平台与硬件异构 - **Vera Rubin平台核心配置**：采用“72 GPU + 36 CPU + NVLink 6 + CX9 + BF4 DPU”的硬件配置作为核心机柜，相比上一代产品，系统级能效提升4倍，推理吞吐/瓦最高提升10倍，并将成本降至十分之一 [4][8] - **Vera CPU**：采用88核Arm定制Olympus核心与“空间多线程”，支持最高1.5TB LPDDR5X内存，单芯片内存带宽1.2TB/s，并提供1.8TB/s NVLink‑C2C与GPU互联 [4][16] - **BlueField-4 STX服务器**：由CX9网卡、Vera CPU与BlueField-4 DPU构成，旨在构建面向AI的“内存池化”与智能调度系统，将分散的GPU显存和存储虚拟化为统一、低延迟的键值缓存池，服务于大模型推理 [11] - **Rubin Ultra机柜**：采用144 GPU（576 die）、1.5PB/s机柜互联带宽、正交背板+光互联、约600kW功耗，预计2027年下半年量产 [8] 专用推理加速：Groq 3 LPU/LPX - **Groq 3 LPU核心参数**：单颗集成500MB SRAM，片上带宽高达150TB/s，支持FP8推理，配备96条112Gbps C2C链路，定位为FP8专用推理加速器 [16] - **Groq 3 LPX机架定位**：作为Vera Rubin架构下的专用推理处理机架，总计256颗LPU，总片上SRAM 128GB，SRAM带宽40PB/s，scale-up带宽640TB/s，并拥有12TB DDR5内存作为容量补充 [21] - **系统分工逻辑**：在推理任务中，Rubin GPU负责Prefill与Decode Attention阶段，而Groq 3 LPX专门负责Decode阶段中对时延敏感的FFN/MoE执行，实现负载的横向拆分与专芯专用 [28][29][30] - **互联方式**：LPX机柜内部通过LPU C2C体系互联；与Vera Rubin机柜之间主要通过Spectrum-X以太网互联，转发介质可能为BlueField-4 DPU，未来可能通过NVLink Fusion Chiplet形式进一步整合 [21][22] - **经济性提升**：Groq LPX与Vera Rubin联合设计后，相比Blackwell平台可实现每瓦吞吐量提升35倍、万亿参数模型的收入潜力提升10倍，同时Rubin平台本身将推理token成本最多降至Blackwell的1/10 [31] PCB：架构创新驱动市场增长 - **市场规模预测**：预计2026年AI PCB市场规模达121.03亿美元（同比增长116%），2027年达224.64亿美元（同比增长86%）[35][45] - **Rubin无线缆设计推动价值量提升**：VR200 NVL72机柜采用全盲插、无线缆设计，将组装时间由2小时缩短至5分钟，单机柜PCB价值量约29.1万元，单GPU对应PCB价值量为4050元（约563美元），较GB300提升36% [36][39][40] - **Groq LPU带来新增量**：LPU采用海量节点堆叠，对PCB规格要求高，预计单LPU对应PCB价值量约200美元，其机柜与Rubin计算柜配套比预计为5:8 [41] - **正交背板应用**：Rubin Ultra NVL576（Kyber架构）采用正交背板替代传统铜缆，预计单板价值量约3-4万美元，单柜价值量约12-16万美元，对应单GPU价值量约500美元 [42][44] 光互联：CPO技术趋势 - **CPO技术量产**：搭载CPO技术的Spectrum-X以太网交换机已实现全面量产，将光引擎与交换ASIC共封装，降低功耗与信号衰减 [47] - **Scale up网络光铜混合**：Rubin Ultra 576架构中，NVL72柜内使用铜线互连，在扩展为576超节点时通过Spectrum 6 CPO交换机（102.4Tb/s）连接；下一代Feynman平台计划在Switch Tray直接搭载NVLink 8 CPO交换芯片，光互连从机柜外延展至机柜内趋势明确 [4][48]

中银晨会聚焦-20260319-20260319

中银国际· 2026-03-19 07:54

3月金股组合 [1] - 报告列出了2026年3月的金股组合，共包含12只股票，涵盖A股和港股，涉及房地产、交通运输、化工、电子、医疗、食品饮料、商贸零售等多个行业 [1] 市场与行业表现 [4][5] - 截至报告日，主要市场指数普遍上涨，其中创业板指涨幅最大，为2.02%，上证综指上涨0.32% [4] - 行业表现方面，通信、计算机、电子行业涨幅居前，分别上涨5.23%、2.46%、2.41%；石油石化、房地产、食品饮料行业跌幅居前，分别下跌1.47%、1.05%、0.91% [5] 电子行业：英伟达GTC 2026技术展望 [2][6][7][8] - 英伟达在GTC 2026上发布了从Rubin到Feynman的技术路线图，核心变化包括采用共封装光学（CPO）和液冷技术，并引入集成大容量SRAM的LPU以增强推理性能 [2][6] - 黄仁勋预计智能体AI和物理AI将成为未来AI的重要增长点，并提出了AI的“五层架构”（能源、芯片、基建、模型、应用） [6][7] - 英伟达预计其2027年营收至少达到1万亿美元 [6] - 报告建议关注与CPO、液冷、LPU、高速互联、服务器组装及散热相关的产业链公司，包括天孚通信、中际旭创、工业富联、英维克等 [8] 电子行业：深南电路公司研究 [2][10][11][12][13] - 深南电路2025年业绩高速增长，全年营收236.47亿元，同比增长32%；归母净利润32.76亿元，同比增长74% [10] - 公司业绩增长由AI、通信、汽车三大领域驱动。2025年PCB业务营收143.59亿元，同比增长37% [11] - 封装基板业务技术突破与客户导入加速，2025年该业务营收41.48亿元，同比增长31%，公司已成为内资最大的封装基板供应商 [12] - 根据Prismark数据，预计2025-2030年全球PCB市场规模将从852亿美元增至1,233亿美元，复合年增长率约8% [10] - 报告调整公司2026/2027年每股收益预测至8.54/11.27元，预计2028年每股收益为13.90元，维持“买入”评级 [13] 电力设备行业：福斯特公司研究 [2][15][16][17] - 中东局势升级导致胶膜原材料EVA粒子等价格大幅上涨，推动胶膜产品涨价。2026年3月11日，EVA粒子报价达1.07万元/吨，环比上涨9.3%；POE胶膜、透明EVA胶膜价格分别环比上涨4.8%、5.1% [15] - 头部胶膜企业短期可享受低价库存红利，提升毛利率；长期来看，原材料涨价有利于行业竞争格局优化，头部企业凭借成本控制能力具备盈利弹性 [16] - 公司是受益于海外光伏产能扩张的核心标的，其境外销售毛利率显著高于境内销售 [16] - 报告将公司2025-2027年预测每股收益调整为0.39/0.86/1.13元，维持“增持”评级 [17] 基础化工行业：宝丰能源公司研究 [3][19][20][21][22][23] - 宝丰能源2025年业绩高速增长，全年营业总收入480.38亿元，同比增长45.64%；归母净利润113.50亿元，同比增长79.09% [3][19] - 业绩增长主要得益于内蒙古300万吨/年煤制烯烃项目全面达产。2025年，公司聚乙烯、聚丙烯销量分别为253.46万吨和246.05万吨，同比大幅增长123.27%和111.22% [20] - 公司财务指标持续优化，2025年加权平均净资产收益率为24.84%，同比提升9.29个百分点；销售毛利率为35.92%，同比提升2.77个百分点 [21] - 公司在建项目有序推进，宁东四期烯烃项目计划于2026年底建成投产，并持续进行技术创新与绿色低碳发展 [22] - 报告调整盈利预测，预计公司2026-2028年每股收益分别为2.14元、2.18元、2.19元，维持“买入”评级 [23]

36氪· 2026-03-19 07:49

公司战略定位 - 公司重新定义自身为一家垂直整合、横向开放的计算公司，这与外界对其作为专注GPU芯片公司的固有印象截然不同 [1][2] - 公司战略从专注于高性能GPU和CUDA生态，转向在硬件上进行垂直整合，在软件上走向合作开放 [2] - 公司CEO提出“AI五层蛋糕”理论，认为AI产业从下到上依次为能源、芯片、数据中心、模型、应用，公司正在每一层进行押注，以推动整个AI产业链流动并做大市场 [14][16] 新一代硬件平台：Vera Rubin - 下一代计算平台Vera Rubin从单颗芯片进化为由7款定制芯片和5种不同机架组成的芯片系统 [3] - 通过NVLink 6网络，将72颗Rubin GPU和36颗Vera CPU在微秒级延迟下连接成一个超级芯片 [3] - 其中Vera CPU集成了256颗液冷处理器，计算效率是传统CPU的两倍，并首次作为独立CPU产品向市场出售 [3] - 与上一代Blackwell芯片整合后，Vera Rubin平台单卡推理能力最高提升5倍，大模型生成Token成本降低90% [3] - 阿里巴巴、字节跳动和Cloudflare等云服务商已宣布将部署，预计今年下半年向首批客户交付 [3] 关键硬件收购与整合：Groq 3 LPU - 公司斥资200亿美元收购初创公司Groq，获取其低延迟推理核心技术 [4] - 在Vera Rubin平台中整合了Groq 3 LPU（语言处理单元），用于AI推理任务加速 [4] - Groq 3 LPU将数据留在芯片内处理，无需外置高宽带内存，因此在问答和内容生成时延迟更低、更稳定，弥补了公司原有架构在推理速度上的不足 [4] - 公司通过专门的“Groq 3 LPX推理托盘”，将低延迟技术变为可拔插模块，既弥补短板也消除了潜在竞争风险 [4] 消费级SoC产品：N1X芯片 - 公司与联发科共同研发基于Arm架构的N1X SoC，主要面向高端AI PC和笔记本电脑市场 [5] - N1X效仿苹果M系列芯片，将CPU、GPU和AI加速单元集成在同一物理内存池上，以优化延迟和能耗 [6] - 此举是公司继移动端“丹佛计划”和数据中心Grace CPU后，再次冲击消费级SoC市场，意图在个人PC处理器市场分一杯羹 [6] 软件生态战略：开放与合作 - 公司与开源项目OpenClaw合作，推出面向企业市场的开源AI智能体平台NemoClaw，帮助企业部署、运行和管理AI Agent [9] - NemoClaw不限制硬件，可运行在英伟达、Intel和AMD的芯片上，标志着公司主动解绑了其核心软件生态与自家硬件的绑定 [10] - 公司判断，企业级应用的核心基础是处理结构化数据（如SQL、Spark），因此致力于让企业在处理数据和构建Agent工作流时习惯调用NemoClaw的API和微服务 [13] - 公司近期发布了自身的大语言模型Nemotron 3，以完善软件生态闭环 [13] - 公司CEO认为，用谁的软件比软件在谁家芯片上运行更重要，开源NemoClaw旨在降低企业使用门槛，做大整个AI市场需求，从而带动对高端算力的需求 [14] 市场前景与竞争格局 - 公司CEO预计，到2027年，以Blackwell和下一代Vera Rubin为主的AI加速芯片累积营收将达到一万亿美元 [2] - 云厂商自研芯片（如微软Maia、谷歌TPU）已获得市场近40%的份额 [12] - 公司通过垂直整合硬件（CPU、GPU、交换机、网络协议、低延迟模块）和开放软件生态，显著提升了竞争者的替代门槛 [7] - 公司在AI基础设施硬件上采取全面覆盖策略，意图赚取产业链上的每一块利润 [8]

TrendForce集邦咨询：CSP自研ASIC规模升级英伟达(NVDA.US)多元产品线分攻AI训练与推理需求

智通财经网· 2026-03-18 21:08

行业竞争格局与趋势 - 大型云端服务供应商正加大自研芯片力度，预计ASIC AI服务器占整体AI服务器的出货比例将从2026年的27.8%上升至2030年的近40% [1] - 英伟达为应对竞争，其市场策略从以往专注云端AI训练，转向着重推动各领域的AI推理应用落地 [1] 英伟达产品战略与布局 - 公司通过推动GPU、CPU以及LPU等多元产品线，分别满足AI训练和AI推理需求，并借由整柜式方案带动供应链成长 [1] - 公司积极推动GB300、VR200等整合CPU、GPU的整柜式方案，强调可扩展至AI推理应用 [4] - 在GTC发表的Vera Rubin被定义为高度垂直整合的完整系统，涵盖七款芯片和五款机柜 [4] 关键产品出货与供应链进度 - 预计2026年第二季存储器原厂可提供HBM4给Rubin GPU搭载使用，助力英伟达于第三季前后陆续出货Rubin芯片 [4] - GB300整柜系统已于2025年第四季取代GB200成为主力，预估至2026年其出货占比将达近80% [4] - VR200整柜系统则约在2026年第三季度末可望逐步释放出货量能 [4] - 第三代Groq LP30 LPU芯片由三星代工，已进入全面量产阶段，预计于2026年下半年正式出货 [5] 技术创新与架构演进 - 为应对AI代理模型时代在译码阶段面临的延迟与存储器带宽瓶颈，公司整合Groq团队技术，推出专为低延迟推理设计的Groq 3 LPU，单颗内建500MB SRAM、整机柜可达128GB [4] - 由于LPU存储器容量限制，公司提出“解耦合推理”架构，通过Dynamo AI工厂作业系统，将推理流水线拆分：将Pre-fill、Attention运算交由Vera Rubin执行，而将译码与Token生成阶段卸载至LPU机柜 [5] - 公司规划在下一代Feynman架构中推出效能更高的LP40芯片 [5]

英伟达(US:NVDA)

Disaggregated Inference

Disaggregated Inference

研报 | 英伟达多元产品线分攻AI训练与推理需求，以应对CSP自研ASIC规模升级

TrendForce集邦· 2026-03-18 17:09

AI服务器市场格局与趋势 - 大型云端服务供应商正加大自研芯片力度，NVIDIA在GTC 2026大会上的战略重点从专注云端AI训练市场，转向着重推动各领域的AI推理应用落地[2] - NVIDIA通过推动GPU、CPU以及LPU等多元产品线，分别满足AI训练和AI推理需求，并借由整柜方案带动供应链成长[2] - 随着以Google、Amazon为首的CSP自研芯片态势扩大，预估ASIC AI服务器占整体AI服务器的出货比例将从2026年的27.8%，上升至2030年的近40%[2] NVIDIA的产品与战略布局 - NVIDIA为巩固市场领导地位，积极推动GB300、VR200等整合CPU、GPU的整柜式方案，强调可扩展至AI推理应用[5] - 在GTC大会发布的Vera Rubin被定义为高度垂直整合的完整系统，涵盖七款芯片和五款机柜[5] - GB300整柜系统已于2025年第四季取代GB200成为主力，预估至2026年其出货占比将达近80%[6] - VR200 Rack系统预计在2026年第三季度末可望逐步释放出货量能[6] NVIDIA在AI推理领域的技术创新 - AI进入代理模型时代，在生成Token的译码阶段面临严重的延迟与存储器带宽瓶颈[6] - NVIDIA整合Groq团队技术，推出专为低延迟推理设计的Groq 3 LPU，单颗内建500MB SRAM、整机柜可达128GB[6] - 为应对Vera Rubin等级的庞大参数与KV Cache，NVIDIA提出“解耦合推理”架构，通过名为Dynamo的AI工厂作业系统，将推理流水线拆分[7] - 在该架构下，Pre-fill、Attention运算阶段由具备极高吞吐量与巨量存储器的Vera Rubin执行，而译码与Token生成阶段则卸载至扩充了巨量存储器的LPU机柜[7] 关键产品供应链进展 - 观察Rubin供应链进度，预计2026年第二季存储器原厂可提供HBM4给Rubin GPU搭载使用，助力NVIDIA于第三季前后陆续出货Rubin芯片[5] - 第三代Groq LP30由Samsung代工，已进入全面量产阶段，预计于2026年下半年正式出货[7] - 未来规划在下一代Feynman架构中推出效能更高的LP40芯片[7]

英伟达(US:NVDA)

解耦合推理(Disaggregated Inference)

解耦合推理(Disaggregated Inference)

GTC2026：英伟达从“卖芯片”进一步走向“交付AI工厂”

中邮证券· 2026-03-18 15:34

行业投资评级 - 行业投资评级为“强于大市”，且评级为“维持” [2] - 计算机行业收盘点位为5323.44，52周最高点为6151.34，52周最低点为4080.58 [2] 报告核心观点 - 报告核心围绕英伟达GTC 2026大会发布的新一代AI基础设施展开，认为AI正从训练时代迈向推理与智能体时代，催生了新的硬件架构与投资机遇 [5][6][7][8][9] - 英伟达推出Vera Rubin平台，定义了“Token工厂”，其AI芯片在2025至2027年底的销售收入指引高达1万亿美元，较此前预测翻倍，预示着巨大的市场需求 [5][6] - 报告指出，为满足超大规模AI集群的需求，LPU（低时延解码）、CPO（共封装光学）等技术从可选走向必选，相关产业链将直接受益 [7][8][10] - 英伟达通过推出企业级软件栈NemoClaw，正从硬件供应商转变为AI软件基础设施的标准制定者，巩固其生态系统领导地位 [9] 技术产品分析：Vera Rubin平台 - Vera Rubin平台是专为智能体AI时代设计的新一代AI计算系统，由7种芯片和5种机架系统组成 [5] - 平台共包含40个机柜，具体构成为：Rubin计算柜:CPU柜:LPX推理柜:存储柜:CPO交换柜=16:2:10:2:10，其中LPU和CPU机柜专为优化推理设计 [5] - 平台通过搭载NVLink 6实现3.6 EFLOPS的整机算力，并采用100%全液冷无缆化设计，使每兆瓦算力吞吐量提升35倍 [6] - 平台集成了Vera CPU、BlueField-4 STX AI原生存储、Spectrum-6 CPO交换机以及Groq 3 LPU机架，从芯片层级重新定义了计算架构 [6] 关键技术突破：LPU与CPO - **LPU (语言处理单元)**：Groq 3 LPU专为优化大模型推理中的Decode（解码）阶段而设计，采用约500MB片上SRAM，提供高达150TB/s的片上带宽，其FP8算力达1.2 PFLOPs，集成980亿晶体管，旨在大幅降低推理延迟 [7] - **CPO (共封装光学)**：随着高性能芯片规模化，CPO成为突破传统可插拔光模块功耗和带宽密度“物理天花板”的关键技术 [8] - 英伟达发布了全球首款量产的Spectrum-X CPO交换机，其将电信号传输距离缩短至1毫米以内，能耗仅为传统铜缆的5%，传输损耗降低60% [8] - 产业路线明确为“铜缆扩展、光学扩展、CPO扩展”并行，Scale-Out网络采用CPO光互联，Scale-Up网络保留铜缆/背板方案，协同发展 [8] 软件生态与商业模式演进 - 英伟达将OpenClaw定义为“个人AI的操作系统”，类比PC时代的Mac/Windows [9] - NemoClaw是为OpenClaw打造的企业级运行与管理软件栈，提供安全隔离的执行环境及数据隐私控制，可部署于从GeForce RTX设备到DGX超级计算机的全系列硬件，支持本地化AI Agent全天候运行 [9] 投资建议与关注方向 - **LPU产业链**：建议关注沪电股份、胜宏科技、深南电路等 [10] - **CPO产业链**：建议关注Himax、AIXTRON、Lumentum、AAOI、易中天、光库科技、仕佳光子等 [10] - **存储产业链**：建议关注三星、海力士、美光、闪迪、香农芯创、德明利、佰维存储、时空科技等 [10]

科技：GTC2026：LPU、OpenClaw超预期，万亿指引提振行业信心

华泰证券· 2026-03-18 13:45

行业投资评级 - 科技行业评级为“增持”，且维持该评级 [5] 核心观点 - 英伟达在GTC 2026大会上的发布和指引超预期，提振了产业链信心，并揭示了多个潜在的投资机会 [2] - 具体包括：1) Groq 3 LPU整合速度超预期，关注三星电子代工业务受益机会；2) OpenClaw（小龙虾）热度超预期，有望刺激端侧设备需求，关注苹果、联想等受益机会；3) 英伟达给出2025-2027年数据中心收入超1万亿美元指引，有望进一步支撑台积电、鸿海和工业富联的业绩增长前景 [2] 根据相关目录分别总结 1. 关于LPU（语言处理单元）与三星电子 - 英伟达正式发布Groq 3 LPU，并确认继续由三星电子代工，整合速度超市场预期 [2] - 英伟达计划利用LPU低延迟的特性来满足Agent AI等高交互性应用的需求 [2] - 第三代LPU仍将由三星电子生产，关注对三星电子代工业务的拉动作用 [2] 2. 关于OpenClaw（小龙虾）与端侧设备 - 英伟达在GTC大会上反复强调OpenClaw（小龙虾）的重要性，并发布企业级Agent AI产品NemoClaw [3] - OpenClaw的核心应用场景是用户在本地终端一行命令部署AI Agent，这对端侧算力提出新需求 [3] - OpenClaw有望刺激苹果Mac Mini/Macbook Neo、联想AI PC和迷你主机NUC、以及小米Pro 14笔记本的销量，扭转市场对PC换机周期的悲观预期 [3] 3. 关于英伟达数据中心收入指引与产业链机会 - 英伟达给出2025-2027年数据中心收入超1万亿美元的收入指引，对应2027年数据中心收入超5000亿美元 [4] - 该指引基本符合华泰预测（FY26-28三年累计达10551亿美元）及Factset市场一致预期（9890亿美元） [4] - 假设英伟达收入的15%对应支付给台积电的相关费用，则2027年台积电来自英伟达的收入约750亿美元，占华泰预测的约30% [4] - 鸿海在3月16日业绩会上给出2026年AI服务器机柜出货量翻倍、2027年继续强劲增长的展望，与英伟达的万亿美元指引相互印证 [4] - 台积电和工业富联作为产业链核心供应商有望充分受益 [2][4] 4. 关于产业链相关公司估值与展望（基于图表） - 报告提供了详细的AI数据中心产业链估值表，涵盖AI芯片/数据中心、代工、封测、HBM、服务器组装、光模块等多个环节的数十家公司 [17] - 鸿海展望2026年AI服务器机柜出货量或翻倍 [18]