Workflow
LPU架构
icon
搜索文档
SemiAnalysis GTC深度解读:三款新系统背后,英伟达正在重新定义AI基础设施的边界
华尔街见闻· 2026-03-24 21:01
英伟达战略转型与新产品发布 - 在GTC 2026大会上,英伟达推出三款全新系统——Groq LPX推理机架、Vera ETL256 CPU机架与STX存储参考架构,标志着公司正从GPU供应商向全栈AI基础设施平台商演进,其产品版图向低延迟推理、CPU编排与存储层全面延伸[1][2] Groq LPX推理系统 - Groq LPX是英伟达以**200亿美元**完成对Groq知识产权授权与核心团队引进后,不到四个月内推出的首款产品化成果[1] - 该系统将Groq的LP30芯片与英伟达GPU深度整合,并引入“注意力与前馈网络解耦”(AFD)技术,旨在高交互推理场景中压缩解码延迟[1] - LPX机架由32个2U计算托盘与2台Spectrum-X交换机构成,每个计算托盘搭载**16块LP30芯片**、**2块Altera FPGA**、**1颗Intel Granite Rapids CPU**及**1块BlueField-4前端模块**,整个机架的规模扩展带宽总计约**640TB/s**[9] - 机架采用液冷设计,包含**2个1U 90kW电源架**,计算托盘以“腹对腹”方式安装于PCB板两侧以实现全互联[9][10] LP30芯片技术细节 - LP30芯片采用三星SF4工艺,配备**500MB片上SRAM**,在FP8精度下算力为**1.2 PFLOPS**,相较于Groq第一代LPU(**230MB SRAM**,**750 TFLOPS INT8**)实现大幅提升[3] - 该芯片以单一整体裸片形式存在,无需先进封装,且SF4工艺不挤占英伟达在台积电N3上的稀缺产能,也不消耗HBM资源,代表增量产能与收入[3] LPU架构价值与AFD技术 - LPU架构的核心优势在于高带宽SRAM与确定性流水线执行机制,在单用户低延迟场景下具备GPU难以企及的首token生成速度,但在大规模token服务上吞吐量弱于GPU[4] - AFD技术将大模型推理中的注意力计算与前馈网络计算拆分至不同硬件:GPU处理涉及动态KV Cache的注意力计算,LPU则承担无状态、可静态调度的FFN计算[7] - 在此框架下,GPU的HBM容量得以充分释放用于KV Cache,提升系统可并发处理的token总量,而LPU发挥其低延迟优势,两者通过All-to-All集合通信与乒乓流水线方式协作[7] - LPU还可在投机解码框架中部署草稿模型,通常可将每次解码步骤的输出token数提升至**1.5至2倍**[7] Vera ETL256 CPU系统 - 随着AI工作负载对数据预处理、调度编排和强化学习验证的需求攀升,CPU正成为制约GPU利用率的新瓶颈[11] - Vera ETL256系统将**256颗Vera CPU**集成于单一液冷机架,通过铜缆拓扑实现机架内全互联,旨在消除对光收发器的需求以节约成本[12] - 机架由32个计算托盘构成,以4个1U MGX ETL交换托盘为中轴对称排列,每个计算托盘承载**8颗Vera CPU**,机架内网络采用Spectrum-X多平面拓扑实现全互联[12] STX存储参考架构 - STX是英伟达发布的存储参考机架架构,与此前推出的CMX上下文存储平台配套,共同构成公司向存储基础设施层渗透的完整布局[14] - 该架构精确规定了一个集群中需要配置的磁盘驱动器、Vera CPU、BF-4 DPU、CX-9网卡和Spectrum-X交换机的数量[14] - 每个STX机箱内含**2个BF-4单元**,合计**2颗Vera CPU**、**4块CX-9网卡**和**4个SOCAMM模块**;整个STX机架共**16个机箱**,对应**32颗Vera CPU**、**64块CX-9网卡**和**64个SOCAMM**[14] - 英伟达点名包括DDN、Dell、HPE、IBM、NetApp、Supermicro及VAST Data在内的一批主要存储厂商将支持STX标准[14] 行业影响与竞争格局 - 三款新系统共同表明英伟达的战略触角已覆盖推理优化、CPU密度、存储编排等此前由其他厂商主导的领域,这将深刻影响整个AI硬件供应链的竞争格局[2] - BlueField-4、CMX与STX的组合,代表英伟达在完成算力层与网络层的主导地位后,正系统性地向存储层、软件层和基础设施运营层推进[16] - 三款系统合力拓宽了英伟达的产品护城河,意味着AI基础设施供应链中更大比例的市场份额将持续向英伟达集中[16]
未知机构:从训练走向极致推理LPU架构重塑算力底座东北计算机范式转移-20260228
未知机构· 2026-02-28 10:55
**涉及的行业与公司** * **行业**: 人工智能算力硬件、半导体、印刷电路板(PCB)及上游材料行业[1][2] * **公司**: 提及的硬件架构与设计公司包括**英伟达**、**Groq**、**Google**[1][2];提及的A股产业链公司包括**菲利华**、**东材科技**、**呈和科技**、**宏和科技**、**德福科技**、**华正新材**、**延江股份**[2] **核心观点与论据** * **算力需求范式转移**: 随着大模型进入大规模应用期,算力需求正从训练端的“暴力计算”向推理端的“极致交互”演进,催生了对低延迟的极致追求[1] * **LPU架构应运而生**: 为应对传统GPU在处理LLM推理Decode阶段时的高延迟瓶颈,专为语言处理设计的LPU架构出现[1] * **LPU技术核心**: 采用大规模片上SRAM直接存储模型参数以消除内存访问延迟,并利用静态时序调度实现精确计算,是一种追求高吞吐与低延迟的ASIC化设计[1] * **未来硬件架构趋势 (PD分离)**: 英伟达布局LPU预示着未来机柜将实现Prefill(填充)与Decode(解码)分离,算力密集的Prefill由高性能GPU负责,延迟敏感的Decode由LPU集群接管[1] * **硬件定制化与升级需求**: LPU对信号传输的确定性要求极高,驱动单机柜硬件从“通用品”向“定制化极品”跃迁[2] * **PCB价值量显著提升**: 由于LPU高集成度与无缆化趋势,所需PCB层数大幅增加至30-50层,单芯片对应的PCB价值量较传统通用服务器提升3-5倍[2] * **上游材料代际升级**: 为满足LPU超低延迟需求,基板材料需从M7/M8级升级至M9级以上,核心在于采用极低损耗的特种树脂和介电性能更优的石英纤维布[2] **其他重要内容** * **具体增量环节与标的梳理**: 报告明确列出了LPU架构落地带来的核心硬件增量环节及对应的A股上市公司,包括石英布、高阶树脂与添加剂、高阶电子布、铜箔、CCL等[2] * **风险提示**: 提及下游需求不及预期、相关政策监管与法律风险[3]
英伟达收购Groq核心资产,补齐算力芯片架构版图 | 投研报告
中国能源网· 2025-12-29 12:02
电子行业市场表现 - 申万电子二级指数年初至今涨幅显著,其中元件板块涨幅最高达106.98%,半导体、其他电子Ⅱ、消费电子、电子化学品Ⅱ板块涨幅分别为46.46%、53.70%、47.50%、53.90%,光学光电子板块涨幅为9.42% [1] - 本周电子细分行业普遍回升,周涨幅分别为:其他电子Ⅱ (+7.46%)、元件 (+7.40%)、电子化学品Ⅱ (+6.19%)、消费电子 (+5.14%)、半导体 (+4.84%)、光学光电子 (+0.86%) [1] - 本周北美重要科技股涨跌不一,周涨幅居前的包括应用光电 (+18.68%)、美光科技 (+7.10%)、英伟达 (+5.27%)、台积电 (+4.81%)、博通 (+3.46%)、甲骨文 (+3.14%),而英特尔 (-1.68%)、特斯拉 (-1.25%)等出现下跌 [2] 英伟达战略收购与技术布局 - 英伟达与Groq达成一项价值200亿美元现金的“非排他性授权协议”,收购其核心资产与技术授权,这是英伟达有史以来最大规模的一笔“投资” [1][3] - 根据协议,英伟达将获得Groq的所有资产与技术授权,但GroqCloud云端业务不在交易范围内,保持独立运作,Groq创始人Jonathan Ross、总裁Sunny Madra及团队其他成员将加入英伟达 [3] - Groq将继续作为独立公司运营,由原首席财务官Simon Edwards出任新任首席执行官,GroqCloud业务将继续正常运营 [3] - Groq主攻独创的LPU架构,采用软件定义硬件的可重构数据流架构,消除了内存带宽瓶颈,在处理大语言模型时能实现每秒数百个Token的“瞬时”吐字,在推理环节具备独特优势 [3] - 英伟达表示,Groq的低延迟芯片响应速度极快,将为英伟达产品带来新能力,帮助开拓新市场领域 [3] 英伟达产品出货与市场预期 - 根据芯智讯,英伟达计划于明年2月中旬开始向中国出口H200芯片,首批预计出货总量为5000-10000套模组,约4-8万颗H200芯片 [1][4] - H200配备141GB的HBM3e显存,内存带宽高达4.8TB/s,性能较前代H100有显著提升,若不被阉割,其性能或将达到H20的6倍以上 [4] - TrendForce预计,在可输入中国市场的情况下,NVIDIA H200或AMD MI325等其他同级海外产品有机会维持近30%的市场占比 [4] 投资关注方向 - 报告建议关注多个产业链方向,包括海外AI相关的工业富联、沪电股份、鹏鼎控股等,国产AI相关的寒武纪、芯原股份、海光信息等,存储相关的德明利、江波龙、兆易创新等,以及SoC相关的瑞芯微、乐鑫科技、恒玄科技等 [4]
从英伟达整合Groq看近存计算新路径
2025-12-29 09:04
涉及的行业与公司 * **行业**:人工智能芯片、近存计算、3D芯片技术、推理芯片市场[1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20] * **公司**:英伟达、Groq、云天励飞、凯霞、华为、台积电、三星[1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20] 核心观点与论据 * **英伟达收购Groq的战略意义**:英伟达以200亿美元收购Groq实体资产,核心团队加入,旨在强化推理芯片布局,承认推理时代到来,需为推理专门规划芯片[2] * **Groq LPU架构的优势**:专为推理设计,采用片内集成SRAM,带宽高达80TB/s,是英伟达最新Blackwell B300 GPU HBM带宽8TB/s的10倍,在处理70B大语言模型时解码速度可达每秒500个token以上,远超业内主流水平[3][4] * **Groq LPU架构的局限性**:场景专用性强,主要适用于实时性要求高的大模型推理,编程难度高,需手动排布流水线,完全依赖片内SRAM导致部署成本高,例如运行Deepseek 671B模型需5000颗芯片,而单台H200服务器即可完成[4] * **英伟达的融合策略**:将保持CUDA生态系统的通用性,通过NVFusion快速集成LPU,长期目标是在底层架构和编译器层面实现协同设计[1][5][6] * **推理芯片架构趋势**:推理场景与训练差异显著,无法用单一架构解决所有问题,未来架构将呈现多样化,需针对细分场景优化[6][7] * **国内3D DM方案的优势**:容量可达SRAM的百倍以上,带宽接近SRAM并优于HBM,拥有3-5倍以上的带宽优势[1][7] * **国内3D DM方案的挑战**:成熟度不足,需2-3年实现规模化部署,良率、散热及先进工艺可获得性是重要瓶颈[1][7][8] * **3D RAM的市场前景**:在推理侧市场前景广阔,拥有数量级以上的带宽优势,单芯片容量可达几十GB甚至上百GB,能有效支持大模型运行,应用场景包括边缘端、云推理等[3][10] * **3D方案的成本目标**:云天励飞计划推出新3D Memory芯片,目标是在单Token成本上实现几十倍下降,以显著降低TCO[11] * **3D芯片的落地节奏**:未来1-2年内,AI PC、手机等边缘端小型场景将率先采用,2-3年后语音推理方案预计可规模化商用[12] * **国内外技术发展对比**:国外在3D RAM及堆叠技术进展不逊于国内,且因可使用更先进制程(如4纳米、3纳米)而工程化挑战更小,但国内因制程受限需探索新技术,可能在部分先进技术上推进更快[14][15] * **3D架构的市场份额预期**:在未来训练与推理比例为30%训练、70%推理的大环境下,新型架构如3D在整个推理市场中预计能占据约30%的份额[16] * **多元化算力时间点**:多元化算力到来取决于大模型应用的渗透与普及,中国因国家层面推动(如“十五规划”目标2028年渗透率70%,2030年90%),可能比美国更快实现[18] * **3D技术的战略价值**:是国内在推理领域缩短与海外先进水平差距的有效路径,有望成为国内推理侧新技术范式的重要组成部分[19][20] 其他重要内容 * **凯霞的技术突破**:开发的高堆叠氧化物半导体沟道晶体管支持高密度3D DRAM,对国内市场是重要突破,将推动相关技术发展[1][14] * **云天励飞的技术路径**:专注于推理赛道,新一代芯片将采用GP/NPU架构,基于国产3D RAM实现极致推理性能,并首创算力积木架构推进云端3D推理芯片研发[13] * **系统级解决方案**:未来需从系统层面考虑,根据不同推理场景的要求组合合适的推理系统,而非依赖单一芯片[16] * **世界模型的影响**:目前仍处研究初期,其前身(如文生视频模型)主要瓶颈在计算而非带宽,对3D方案的利好有限[17] * **技术组合限制**:不太可能同时使用成本均较高的HBM与3D堆叠,会削弱各自优势[16]
英伟达收购Groq核心资产,补齐算力芯片架构版图
信达证券· 2025-12-28 19:22
报告行业投资评级 - 行业投资评级为“看好” [2] 报告的核心观点 - 报告核心观点围绕英伟达通过收购Groq核心资产以补齐其算力芯片架构版图,以及AI芯片市场的最新动态展开 [2] - 报告认为英伟达收购Groq的LPU架构将增强其在AI推理环节的能力,并开拓新的市场领域 [2] - 报告同时关注了英伟达新一代AI芯片H200的出货计划及其在中国市场的潜在影响 [2][3] 行情追踪:本周电子细分行业大幅回升 - 本周申万电子二级细分行业指数普遍上涨,年初以来累计涨幅显著 [2][9] - 年初以来涨跌幅:半导体 (+46.46%)、其他电子Ⅱ (+53.70%)、元件 (+106.98%)、光学光电子 (+9.42%)、消费电子 (+47.50%)、电子化学品Ⅱ (+53.90%) [2][9] - 本周涨跌幅:半导体 (+4.84%)、其他电子Ⅱ (+7.46%)、元件 (+7.40%)、光学光电子 (+0.86%)、消费电子 (+5.14%)、电子化学品Ⅱ (+6.19%) [2][9] - 本周北美重要科技股涨跌不一 [2][10] - 年初以来涨幅居前的包括:美光科技 (+238.39%)、英特尔 (+80.55%)、超威半导体 (+77.99%)、谷歌 A (+65.62%)、博通 (+51.88%)、台积电 (+53.34%) [10] - 本周涨幅居前的包括:应用光电 (+18.68%)、美光科技 (+7.10%)、英伟达 (+5.27%)、台积电 (+4.81%) [2][10] - A股电子各细分板块个股表现分化,列出了涨幅与跌幅前五的个股 [17][18][19][20][21][22][23] 英伟达收购 Groq 核心资产 - 英伟达以200亿美元现金达成“非排他性授权协议”,收购Groq核心资产与技术授权,这是英伟达有史以来最大规模的“投资” [2] - 交易主要内容包括 [2]: 1. 业务分割:英伟达获得Groq所有资产与技术授权,但GroqCloud云端业务维持独立 2. 人才吸纳:Groq创始人Jonathan Ross、总裁Sunny Madra及团队其他成员将加入英伟达 3. 公司独立性:Groq将继续作为独立公司运营,由原CFO出任新CEO,GroqCloud业务不受影响 - Groq主攻独创的LPU(语言处理单元)架构,采用软件定义硬件的可重构数据流架构,消除了内存带宽瓶颈 [2] - LPU在处理大语言模型时能实现每秒数百个Token的“瞬时”吐字,在推理环节具备独特优势,是TPU和传统GPU无法企及的物理极限 [2] - 英伟达表示,Groq的低延迟芯片响应速度极快,将为英伟达产品带来新能力,帮助开拓新市场 [2] 英伟达 H200 芯片动态 - 英伟达计划于2026年2月中旬开始向中国出口H200芯片 [2] - 首批预计出货总量为5000-10000套模组,约合4-8万颗H200芯片 [2] - 若性能不被阉割,H200的性能或将达到H20的6倍以上 [2] - H200配备141GB的HBM3e显存,内存带宽高达4.8TB/s,性能较前代H100有显著提升 [2][3] - 根据TrendForce预估,在可输入中国市场的情况下,NVIDIA H200或AMD MI325等海外高端AI芯片在2026年中国市场有望维持近30%的供应占比 [3][32] 建议关注的标的 - 报告建议关注以下投资方向及相关公司 [3]: - **海外AI**:工业富联、沪电股份、鹏鼎控股、胜宏科技、生益科技、生益电子等 - **国产AI**:寒武纪、芯原股份、海光信息、中芯国际、深南电路等 - **存储**:德明利、江波龙、兆易创新、聚辰股份、普冉股份等 - **SoC**:瑞芯微、乐鑫科技、恒玄科技、晶晨股份、中科蓝讯等
POS机快刷爆了,200亿、50亿、10亿,黄仁勋用美金“爆买”一切
36氪· 2025-12-25 16:17
文章核心观点 - 英伟达正利用其由AI浪潮带来的巨额现金储备,通过一系列战略性投资、许可协议和联盟,系统性地巩固并扩展其在AI全产业链的影响力,从消除潜在竞争威胁到控制上游设计工具、绑定下游关键客户与应用场景,旨在将其技术标准深度嵌入未来计算的每一个环节 [1][24] 内化变量:通过许可协议与人才并购消除威胁并补全能力 - 公司与AI推理芯片初创公司Groq达成一项价值约200亿美元的技术许可协议,实质上是将其联合创始人、CEO及核心技术团队整体并入,从而将Groq的颠覆性LPU架构技术内化 [3] - Groq的LPU架构通过将模型权重存储在SRAM而非HBM中,实现了极致的推理速度,有时甚至比GPU快10倍,直接威胁到公司在AI推理市场的优势 [5] - 交易后,Groq的云服务业务GroqCloud被剥离并保持独立,但市场观点认为其失去了核心团队和芯片路线图支持后前景堪忧 [6] - 这种“掏空式收购”或“人才并购”模式,在规避严格反垄断审查的同时,实现了对关键技术与人才的锁定,正成为科技巨头消除威胁、巩固护城河的常态策略 [7] - 类似案例包括Meta与Scale AI、谷歌与Windsurf的交易,共同趋势显示:当某项能力被证明不可替代,平台倾向于将其内化为自身可控、可长期积累的内部能力 [8] 向上筑墙:通过资本渗透AI计算价值链关键节点 - 公司向上游芯片设计软件龙头新思科技投入20亿美元,旨在将其加速计算能力直接植入未来所有芯片的设计工具中,从而缩短各类芯片的设计周期并将自身硬件标准更深地嵌入半导体产业研发流程 [10][12] - 公司向传统宿敌英特尔投资50亿美元,达成战略和解与技术联盟,英特尔将为公司数据中心开发定制x86 CPU,同时将公司GPU核心集成到下一代个人电脑芯片中,为公司打开庞大的消费级市场通道 [13][15] - 公司向电信设备巨头诺基亚投资10亿美元,共同瞄准AI原生的5G与未来的6G网络,以应对AI对低延迟、高带宽网络的需求 [15] - 公司对Anthropic高达100亿美元的投资承诺,与后者未来300亿美元的公司系统采购承诺紧密捆绑,形成了一个“投资-采购”资本闭环,锁定了巨额订单并将顶尖AI实验室的研发方向与公司硬件进化路径深度耦合 [17] - 这些投资共同目标是让公司的技术成为驱动从芯片设计、个人电脑、通信网络到人工智能的底层脉搏 [17] 向下铺路:构建覆盖AI全产业链的体系化投资网络 - 公司的投资版图是一套高度成体系的长期布局,旨在搭建一张覆盖AI全产业链的网络,确保未来任何可能爆发的AI场景都离不开其硬件与软件体系 [18] - 在决定AI能力边界的模型层,公司几乎不计成本地押注顶级模型公司,如向OpenAI提供高达千亿美元级别的支持,并参与xAI、Mistral AI等融资,目的是让最先进的大模型在训练和运行阶段都深度绑定公司硬件架构 [19] - 在算力基础设施层,公司通过增持CoreWeave等专用AI云服务商,为自家最先进的芯片建立规模庞大且高度配合的落地渠道,并通过投资Crusoe等数据中心开发商直接参与“算力工厂”建设,用资本打通从芯片制造到最终用户的直通路径 [21] - 在应用场景层,公司将资金投向自动驾驶、人形机器人、生命科学、智能体及核聚变等多个前沿领域,逻辑是凡是最依赖大规模算力、最可能诞生下一代平台级产品的方向,都提前介入以嵌入自身的硬件标准和CUDA软件生态 [21] - 公司的核心目标是扩展CUDA的生态边界,其出售的是一整套从底层算力、中间层软件到上层应用标准的系统 [22] 财务实力与战略动机:现金转化为竞争壁垒 - 截至2025年10月底,公司现金及短期投资储备高达606亿美元,是2023年初133亿美元的4.5倍 [24] - 分析师预计,仅2025年其自由现金流就将达968.5亿美元,未来三年总计可能超过5760亿美元 [24] - 面对巨额现金,公司将大规模战略投资置于最高优先级之一,认为投资生态是“非常重要的工作”,能直接驱动对AI和公司芯片的额外消费 [24] - 庞大的现金正被转化为竞争壁垒,使公司能够以“预付款”或“投资换承诺”的方式锁定核心客户、绑定关键伙伴并提前“招安”潜在对手,这已远非单纯的财务投资,而是一场用资本为技术帝国构建“能量护盾”的战略行动 [24]