LPU
搜索文档
GTC大会前瞻-PCB设备钻针更新-重视LPU带来的增量
2026-02-27 12:00
行业与公司关键要点总结 涉及的行业与公司 * **行业**:人工智能芯片、云计算服务、印刷电路板、PCB设备与耗材[1][2][5][6] * **公司**: * **核心公司**:英伟达、Groq[1][2][3] * **PCB/钻针相关公司**:沃尔德、四方达、鼎泰高科、中国高新、民爆光电、新瑞股份、欧科亿[5][6] * **PCB设备相关公司**:大族数控、英诺激光、凯格精机[2][6] 核心观点与论据 1. LPU的技术特点与市场定位 * LPU专为序列类自然语言处理设计,与更通用的GPU形成差异[1][2] * LPU功耗约为GPU的1/10,推理速度极快[1][2] * LPU通过精密编译器实现数据流动的确定性,提升效率[1][3] * LPU采用SRAM而非HBM,速度快但容量小,单芯片仅230兆[3] * 市场预期AI将从训练主导转向推理主导,LPU的速度优势在推理阶段战略价值凸显[1][3] 2. Groq的发展历程与英伟达的收购逻辑 * Groq自2016年成立至2023年多次濒临破产,因早期AI市场由训练主导,其内存与部署形态限制缺乏应用场景[1][3] * 英伟达于2025年底以200亿美元“收购”Groq,该价格约为Groq当时估值的4倍[1][3] * 收购的核心逻辑是押注AI转向推理主导,LPU的速度优势将更具价值[3] 3. Groq Cloud的部署模式与硬件架构 * Groq通过自建数据中心以API形式提供服务,降低客户直接部署门槛[1][4] * 硬件架构:1个板卡含1个LPU → 1个加速器由8个卡构成 → 1台Groq Server含8个加速器 → 每个计价单元合计72个LPU[1][4] * 以运行700亿参数的LLaMA 2为例,Groq Cloud方案需要576个LPU卡,而英伟达H200方案仅需4~5个GPU,板卡数量差异巨大[1][4] * 选择Groq Cloud的关键在于其推理速度优势,公开测评显示其在“每一兆token的价格”与“计算速度”坐标中位于低价高速区间[4] 4. LPU对PCB产业链的影响路径 * **路径一(“量”的逻辑)**:LPU单独使用。因单芯片内存小,模型部署需大量芯片并行,导致PCB板卡数量可能出现百倍级增长,从而带动PCB面积和数量需求[2][5][6] * **路径二(“价”的逻辑)**:LPU与GPU混合/堆叠封装。市场预期相关GPU可能采用52层、M9Q布基材的高多层PCB,高层数与高端材料提升单板价值与加工难度[2][5] 5. PCB产业链各环节的受益逻辑与关键公司 * **钻针环节(优先级最高)**: * **PCD微钻**:主要受益于混合封装采用高端材料(如M9Q布)带来的“价”的逻辑。沃尔德PCD微钻已能钻1万个孔,属于应用场景变化带来的参数调整[2][5]。重点关注**沃尔德**、**四方达**[5] * **普通硬质合金微钻**:主要受益于Groq Cloud路径下PCB面积与板卡数量增加的“量”的逻辑[2][5]。相关标的包括**鼎泰高科**、**中国高新**、**民爆光电**、**新瑞股份**、**欧科亿**[5][6] * **PCB设备环节**:主要受益于LPU单独使用路径下板卡数量与PCB面积百倍级增长带来的“量”的逻辑[2][6]。重点关注**大族数控**、**英诺激光**、**凯格精机**[2][6] * **液冷方向**:增量需求不明显。因LPU芯片功耗非常低,目前独立运行的LPU芯片均为风冷[2][6] 其他重要内容 * LPU“难用”的核心约束在于片上内存极小(230兆),运行模型需要大量芯片并行,客户曾质疑其部署成本[3] * Groq Cloud已在沙特、欧洲、北美建设数据中心,并已有客户租用,尤其吸引对推理速度敏感的模型公司[4] * 混合封装GPU的相关消息指向其可能具备堆叠式内存,用于减少瓶颈[5]
未知机构:英伟达业绩指引超预期AlleyesonGTC正交背板预期强化LPU超-20260227
未知机构· 2026-02-27 10:30
纪要涉及的行业或公司 * **公司**:英伟达 (NVIDIA) [1][1] * **行业**:AI PCB (人工智能印刷电路板) 板块 [1] * **相关公司**:生益科技、沪电股份、胜宏科技、深南电路、NV 潜在受益股 [2] 核心观点和论据 * **英伟达业绩表现强劲**:公司第四季度营收为681亿美元,同比增长73%,超过市场预期的650亿美元 [1][1] * **英伟达业绩指引超预期**:公司预计第一季度营收为780亿美元,同比增长77%,超越市场预期的730-750亿美元 [1][1] * **GTC大会焦点**:预计将聚焦于推理、增强的 Scale Up 以及 CPO (共封装光学) [1] * **正交背板预期强化**:预计英伟达将在GTC展示正交背板方案,该方案有望随Rubin Ultra 576机柜于2027年开始大规模出货 [2] * **正交背板的商业价值**:预计将带来约400美元的GPU PCB ASP (平均销售单价) 显著增厚 [2] * **正交背板的技术地位**:在448G serdes升级需求下,正交背板仍是tray to tray连接的最优解 [2] * **LPU (语言处理单元) 的意义**:是英伟达强化推理版图的重要补充,带来全新增量 [2] * **LPU的产业影响**: 1. 算力性价比提升,利好推理乃至整体AI产业 [2] 2. 高速互联需求提升,利好PCB升规升级 (主板或采用超高多层+M9的PCB设计) [2] 3. 优化AI投入结构,利好PCB在AI BoM (物料清单) 占比持续提升 (从当前3-5%提升至未来5-10%) [2] * **对AI PCB板块的总体判断**:持续看好其在持续升规升阶、应用拓展以及推理/ASIC需求放量下的发展机遇 [2] * **行业供需预测**:预计到2027年及以前,行业高阶产能将持续供需偏紧 [2] * **相关公司前景**:龙头厂商业绩兼具高增长性及确定性 [2] 其他重要内容 * **正交背板的技术细节**:M9+PTFE混压仍为可选项,层数也有提升空间 [2] * **CPO与正交背板的关系**:CPO入柜是Canister之间互联,与正交背板方案并不冲突 [2]
未知机构:东吴电子陈海进GroqLPU引爆AI推理集群升级进一步提振M9产业链景气-20260227
未知机构· 2026-02-27 10:20
**行业与公司** * **行业**:AI芯片、PCB(印刷电路板)材料、半导体材料 * **公司**:菲利华 **核心观点与论据** * **AI推理集群升级驱动PCB材料升级**:Groq LPU引爆AI推理集群升级,其超大规模横向扩展设计对信号完整性提出极限挑战,高速信号传输损耗控制已成为保障集群算力充分释放的核心瓶颈[1][2] * **PCB材料向M9等级升级**:为应对高速信号衰减,PCB材料必须从M7/M8向M9等级升级,且须与HVLP4/5级超低轮廓铜箔及低介电石英布配套使用[2] * **石英布需求爆发**:石英布作为PCB骨架材料,其低介电与低CTE特性直接决定高速信号传输质量,随着PCB层数与面积提升,单片AI服务器对石英布消耗量数倍增长[2] * **石英布供应紧张**:全球石英布产能高度集中,在算力硬件放量背景下,石英布已成为产业链供应最紧张的关键材料,率先迎来量价齐升[2] * **菲利华直接受益**:菲利华是目前国内唯一具备半导体级石英纤维量产能力的企业,深度绑定海外高端客户,直接受益AI服务器用石英布需求爆发[3] * **公司业绩展望**:随着M9材料渗透率提升及GTC 2026新一代芯片平台放量,公司石英布及石英纤维业务有望迎来量价齐升,业绩弹性与估值重塑空间广阔[3] **其他重要信息** * **行业事件**:英伟达近期与AI推理芯片先锋Groq达成约200亿美元技术授权合作,获得LPU架构非独家IP授权[1] * **技术细节**:Groq第二代LPU采用三星SF4X 4nm工艺,相较初代14nm产品实现15-20倍能效比跃升,单集群规模从264颗大幅扩展至4,128颗芯片级全互联[1] * **技术细节**:TSP架构下高速SerDes通道密度与芯片集成度同步提升,单机柜需承载数万条高速信号走线与复杂拓扑路由,PCB层数持续提升,单板走线密度呈数量级增长[1]
未知机构:传闻的英伟达LPU供应链名单代工台积电N3N5制程-20260227
未知机构· 2026-02-27 10:15
涉及的行业与公司 * **行业**:半导体、人工智能芯片、电子制造 * **公司(供应链)**: * **芯片代工**:台积电[1] * **SRAM供应商**:力积电、华邦电、钰创、爱普[1] * **PCB(印刷电路板)供应商**:胜宏科技、沪电股份[1] * **树脂供应商**:东材科技[1] * **Q布供应商**:菲利华[1] * **CCL(覆铜板)供应商**:台光(主要供应商)、生益科技[1] * **封测供应商**:日月光(主要供应商)、通富微电、长电科技[1] * **系统集成代工**:工业富联、广达、纬创[1] 核心观点与论据 * **英伟达LPU的技术路径**:LPU通过采用片上SRAM,绕开了对HBM(高带宽内存)和CoWoS(先进封装)技术的依赖[1] * **供应链影响**: * 该技术路径使英伟达LPU不依赖传统的HBM三巨头(三星、SK海力士、美光)[1] * 在封装环节,LPU主要采用传统封装,无需复杂的CoWoS先进封装[1] * **供应链关键环节**: * 芯片制造采用台积电的N3/N5制程[1] * SRAM供应商均为台商[1] * 封测环节由日月光主供[1] * CCL(覆铜板)环节由台光主供[1] 其他重要信息 * 文档内容为“传闻的英伟达LPU供应链名单”[1] * 供应链名单在文档中重复列出[1]
英伟达财报超预期,关注通信ETF(515880)、创业板人工智能ETF(159388)
搜狐财经· 2026-02-27 09:26
海外算力板块市场表现 - 2月26日,通信ETF开盘后持续上行,收涨2.58% [1] - 创业板人工智能ETF同步上行,收涨1.73% [1] 英伟达FY26Q4财报核心数据 - 单季总营收达681.3亿美元,环比增长20%,同比增长73%,超过市场预期的656.84亿美元 [3] - 单季数据中心营收达623亿美元,环比增长22%,同比增长75%,高于市场预期的606.2亿美元 [3] - 毛利率达75%,环比增长1.6%,同比增长2% [3] - 净利润从去年同期的221亿美元增至430亿美元(每股1.76美元) [3] 英伟达FY27Q1业绩指引 - 营收指引为780亿美元±2%(不包含中国收入),超过市场预期的726亿美元 [3] - 毛利率指引为74.5%-75.5%,在高位维持 [3] 英伟达GTC大会预期 - GTC大会将于3月16日开幕,是英伟达最重要的发布会 [5] - 市场预期LPU、CPO、VR200 Superpod等产品可能迎来重磅更新或发布 [5] 北美四大云厂商资本开支 - 4Q25,微软、亚马逊、Meta、谷歌合计资本开支同比增长66.64%至1176亿美元 [7] - Meta 2026年资本开支指引约1150亿至1350亿美元,同比增长59%至87% [7] - 谷歌2026年资本开支指引在1750亿至1850亿美元之间,同比接近倍增 [7] - 微软2026年资本开支指引约2000亿美元,同比增长50% [7] - 北美四大云厂2026年资本开支指引合计超6600亿美元,增速超过60% [7] AI模型与应用侧进展 - Seedance2.0、Gemini3.1Pro等模型更新持续拉高智能水平 [9] - Anthropic各种应用跨步前行 [9] - 文章提及可关注通信ETF(515880)和创业板人工智能ETF(159388) [9]
英伟达正在憋芯片大招
半导体行业观察· 2026-01-17 10:57
文章核心观点 - 英伟达对Groq和Enfabrica的收购,可能旨在整合其技术以构建下一代AI推理平台,但也可能主要是防御性策略,旨在阻止竞争对手获得关键资产[1][9] - 人工智能推理硬件的发展趋势是,设备正从传统的图形处理单元演变为专为低精度数学运算优化的向量/张量引擎、缓存和互连结构的复杂集合[1] - 英伟达的收购行为可能预示着其未来将推出基于新架构的、更强大的推理机器,而非完全依赖现有GPU架构[9] AI推理硬件竞争格局 - 在AI推理领域,能与英伟达竞争的供应商很少,Groq是其中之一[2] - 市场上获得认可的非GPU AI加速器包括:Cerebras的CS-2晶圆级计算引擎、谷歌的TPU、AWS的Trainium(Inferentia已较少提及)[2] - AMD凭借其数据中心GPU在市场中占据一席之地[2] - 超大规模云服务商和云平台构建商正在创建自己的AI XPU,同时也在使用英伟达和AMD的GPU[5] - 模型构建商如Anthropic承诺使用谷歌的TPU和AWS的Trainium[5] 英伟达收购Groq交易分析 - 交易金额高达200亿美元,英伟达获得了Groq的学习处理单元技术授权,并挖走了其大部分核心工程师,包括联合创始人Jonathan Ross和首席运营官Sunny Madra[3] - 交易前,Groq在2025年9月完成E轮融资7.5亿美元后,估值仅为69亿美元,此前五轮融资总计17.5亿美元[3] - 交易对Groq的估值是其E轮融资后估值的2.9倍,对于投资者而言是一个相当不错的退出价格[5][6] - 收购后,Groq剩余部分将主要专注于GroqCloud服务、大量知识产权,据信已无针对未来LPU或GroqWare产品线的计划[3] - 交易结构上,英伟达选择保留部分股权,以避免给人留下收购整个Groq的印象,这可能是出于对全球反垄断监管的考虑[6] Groq公司背景与交易动机 - Groq由Jonathan Ross联合创立,其完全调度编译器是LPU与谷歌TPU截然不同的关键资产,也是英伟达不想落入对手之手的关键[4] - Groq曾获得沙特阿拉伯承诺的15亿美元投资,用于在达曼建设大型GroqCloud数据中心,但据信该项目尚未启动[3] - 从Groq角度看,当前是推出英伟达GPU替代方案的好时机,因为英伟达GPU功能强大但价格昂贵[3] - Groq的投资者出售股份的动机可能在于,尽管AI推理市场重要,但面对巨头竞争和自身发展不确定性,高溢价出售是理性选择[2][6] 潜在收购方与竞争动态 - 英特尔需要收购AI的未来,尤其是基于推理的未来,传闻其对SambaNova、Groq和Cerebras都感兴趣,但受限于资金短缺[4] - AMD也曾是Groq的潜在收购方,理论上仍有权授权Groq的软件栈及有用的硬件技术[4] - 沙特阿拉伯承诺的15亿美元投资,与OpenAI计划投入约30吉瓦容量(成本估算在1.05万亿至1.5万亿美元)相比规模很小[5] - Groq与沙特的合作承诺规模,比Cerebras与OpenAI刚签署的协议规模小6.7倍,比OpenAI计划构建的规模小三个数量级[5] Enfabrica收购与技术潜力 - 英伟达收购Enfabrica,类似Groq收购,可能预示着架构改变,也可能只是技术融合的伪装或防御性策略[8] - Enfabrica的“Millenium”ACF-S芯片将扩展内存和主机I/O集成到单个芯片上,旨在取代网卡、PCI-Express交换机、CXL交换机等[8] - 其首款产品基于CXL技术的SuperNIC,名为Emfasys的内存扩展器,于2025年7月发布[9] - 在四机架GB200 NVL72服务器上添加一机架Emfasys,据称可将每个令牌的成本降低一半,使GPU吞吐量翻倍[9] 收购的防御性目的与历史先例 - 收购通常兼具防御和进攻目的,英伟达可能旨在阻止关键资产(如Groq的完全调度编译器)落入竞争对手之手[4][7] - 存在公司被收购后技术被束之高阁的先例,例如IBM在2008年末收购Transitive公司(其QuickTransit模拟器技术),随后在2011年彻底关闭相关业务[7][8] - 英伟达并无必须使用其已获得授权技术的规定,因此Groq和Enfabrica的技术可能被用于未来产品,也可能仅作为防御[7][9]
可重构芯片突围:清微智能RPU崛起,“后GPU”算力谁主沉浮
环球网· 2026-01-14 13:28
AI芯片技术格局演变 - 2026年初,AI芯片战场正悄然转向,三大技术流派成形:GPU派、ASIC派与可重构数据流派[4] - GPU派以英伟达为代表,是当前AI芯片领域的绝对霸主,但其性能提升受制于“内存墙”、高功耗等问题[4] - ASIC派以谷歌TPU为代表,通过硬件与算法深度绑定实现极致能效,但存在算法迭代后硬件难匹配的风险[4] - 可重构数据流派以Groq的LPU和清微智能的RPU为代表,核心是“软件定义硬件”,兼具ASIC高效能与GPU灵活性[4] 行业领导者动态与竞争 - 英伟达在CES上发布Rubin平台,宣称推理成本降至十分之一,但面临战略焦虑[1] - Meta被曝考虑弃用英伟达GPU、转投谷歌TPU[1] - 2025年圣诞节,英伟达以200亿美元闪电收购估值仅69亿美元的初创公司Groq,溢价近3倍[1] - Groq的核心武器是其LPU,在大模型推理中性能可达GPU的5–18倍,能效比提升10倍[1] 可重构芯片技术优势与案例 - 可重构芯片(如LPU/RPU)绕过传统GPU的内存墙,实现几乎“确定性延迟”的Token吞吐[1] - 清微智能的旗舰芯片TX81支持万亿参数大模型的训推一体[2] - 搭载TX81芯片的REX1032服务器可高效运行DeepSeekR1/V3等主流大模型,推理成本降低50%,能效比提升3倍[2][5] - 该技术路线正从细分走向主流,成为头部企业争相布局的核心方向[7] 中国关键玩家:清微智能 - 北京AI芯片公司清微智能自研的RPU与Groq的LPU同属可重构数据流架构,被业内称为“中国版高阶TPU”[2] - 2025年12月,公司完成超20亿元C轮融资[2] - 公司已实现从IP、芯片到服务器的全栈自研,并在全国部署超3万张AI加速卡,稳居国产第一梯队[2] - 清微RPU已落地国家“东数西算”工程,新疆双河市中树云智算中心全部采用其芯片构建[2] - 在生态层面,清微深度适配国产开源操作系统FlagOS,并与华为昇腾、寒武纪等共同组成“FlagOS卓越适配单位”[4] 市场定位与未来展望 - GPU派在训练和通用计算中保持核心地位[7] - ASIC派正用极致能效比主攻特定模型的推理场景,帮助云厂商降本增效[7] - 可重构数据流派以其灵活、高效、确定性,成为多元化AI芯片生态的重要力量[7] - 在这场决定下一代算力话语权的竞赛中,清微智能和它的RPU被视为中国打出的一张关键牌[7]
英伟达,筑起新高墙
36氪· 2026-01-13 10:39
英伟达与Groq的交易本质与战略意图 - 英伟达与推理芯片初创公司Groq达成一项“非独家许可协议”,Groq创始人兼CEO、总裁及多名核心成员将加入英伟达,参与授权技术的推进与规模化 [1] - 该交易虽非形式上的收购,但实现了技术被许可、团队被吸纳的关键结果,是一种典型的“收购式招聘”,旨在将潜在威胁纳入自身体系 [1] - 交易发生在AI芯片竞争从“训练为王”转向“推理决胜”的敏感时间点,英伟达GPU统治训练市场,但在推理端面临AMD、定制ASIC及云厂商自研芯片的竞争 [2] - Groq的LPU专为推理设计,主打极致低延迟和性能确定性,其创始人被视为谷歌TPU背后的关键推手,英伟达此举意在竞争白热化前提前消除潜在威胁 [2] Groq的技术价值与市场定位 - Groq的核心技术是自研的LPU架构,采用静态调度、数据路径固定的“确定性设计”,芯片内部使用SRAM技术,而非片外HBM显存,实现了某些场景下的极致低延迟 [4] - 公司创始人Jonathan Ross是Google第一代TPU的首席架构师,其目标是打造比TPU更快、更可控的“通用AI处理器” [4] - Groq最初尝试进入训练市场但受阻,因其架构对主流AI框架兼容性有限且缺乏成熟编译工具链,迁移成本高 [4] - 从2023年下半年开始,Groq明确转向推理即服务方向,2024年展示其系统运行Llama 2-70B模型时,实现每秒超过300个Token的生成速度,远超主流GPU系统 [5] - 其低延迟优势吸引了金融交易、军事信息处理、语音/视频同步字幕生成等垂直行业用户,并通过GroqCloud平台提供API访问,与LangChain、LlamaIndex等生态集成 [5] 英伟达在集群与系统控制层的战略布局 - 英伟达于2022年1月收购了集群管理软件公司Bright Computing,其工具Bright Cluster Manager在全球拥有超过700家用户,收购金额未公开,但该公司此前共筹集1650万美元 [7] - 该工具被纳入英伟达AI Enterprise软件堆栈并更名为Base Command Manager,成为AI系统的“底层控制平面”,英伟达通过许可证模式按每个GPU每年4500美元的费用出售“系统能力” [8] - 英伟达设定了商业策略:对每个节点包含8个GPU以内的集群提供免费的BCM许可证但不提供技术支持,促使企业为稳定生产环境购买AI Enterprise许可证 [9] - 在Base Command Manager之上,英伟达叠加了Mission Control,用于自动部署集成了框架、工具、模型、容器、健康检查和功耗优化的“AI工厂” [9] - 2024年,英伟达收购了Run.ai,其核心价值在于实现GPU资源的抽象化管理,如多租户、弹性调度、优先级控制和GPU虚拟化,防止调度权被云厂商掌控而稀释CUDA生态优势 [10] - 2025年12月,英伟达收购了SchedMD,获得了超级计算领域事实标准的工作负载管理器Slurm背后的核心团队和技术支持权,Slurm在过去十年中用于约60%的Top500超级计算机 [12][13] - 通过收购SchedMD,英伟达旨在掌控Slurm的演进方向、支持能力和企业级整合权,避免其Base Command Manager和Mission Control体系存在无法掌控的“底座” [14] - 英伟达在2024年10月停止单独销售Bright Cluster Manager,仅将其作为AI Enterprise Stack的一部分提供,正在将所有系统组件打包成不可分割的整体 [17] 英伟达构建的“生态城墙”三层体系 - 第一层是**对集群资源的调度权**:通过Mellanox的网络互联技术、Bright Computing的集群管理、SchedMD的工作负载调度,控制了算力连接、分配、排队执行的完整链条 [18] - 第二层是**对工作负载执行路径的定义权**:通过Run.ai的GPU虚拟化、Mission Control的自动化部署与健康检查、Slurm的作业调度,共同定义了任务如何运行及资源分配 [18] - 第三层是**对企业级支持与系统复杂度的掌控权**:通过AI Enterprise许可证模式,将工具打包成商业服务,客户购买的是整套“系统集成能力”,开源代码可fork但企业级支持与优化经验掌握在英伟达手中 [19] - 这三层体系叠加后,使得客户即使理论上可选择其他硬件,实践中的迁移成本也高得难以承受,英伟达的商业模式已从卖芯片转变为卖生态,GPU成为生态入口 [19] - 英伟达通过近年对Groq、Bright Computing、Run.ai和SchedMD的布局,系统性地收回了AI计算体系中的“非硬件控制权”,构建了一座用迁移成本、学习曲线和生态粘性定义高度的“生态城墙” [20]
英伟达,筑起新高墙
半导体行业观察· 2026-01-13 09:34
文章核心观点 - 英伟达通过一系列战略性交易(如与Groq达成协议、收购Bright Computing、Run.ai和SchedMD),系统性地构建了超越硬件(GPU)的生态壁垒,其战略重心正从统治训练算力转向掌控推理效率和整个AI计算系统的非硬件控制权,旨在通过整合集群调度、工作负载定义和企业级支持服务,大幅提高客户的迁移成本,从而巩固其市场主导地位 [1][2][4][7][23][24] AI芯片竞争格局与英伟达的战略焦虑 - AI芯片竞争焦点正从“训练为王”转向“推理决胜”,在推理端,AMD、定制ASIC及云厂商自研芯片正快速逼近,成本和供应链多元化成为客户现实诉求 [2] - 英伟达的焦虑源于AI产业重心从堆算力(FLOPS)转向高效、确定性地交付推理结果,其统治性的GPU在推理端的话语权可能被系统层逐渐侵蚀 [4][7] - 英伟达采取“收购式招聘”等操作,在不触碰监管红线的前提下,将潜在威胁(如Groq)纳入自身体系 [1] Groq的技术价值与英伟达的交易动机 - Groq的核心技术是自研的LPU架构,采用静态调度和确定性设计,使用SRAM而非HBM,主打极致低延迟和性能确定性,其创始人Jonathan Ross是谷歌第一代TPU的首席架构师 [5] - 2024年,Groq展示其系统运行Llama 2-70B模型时,生成速度超过每秒300个Token,远超主流GPU系统,吸引了金融、军事等对延迟敏感的垂直行业用户 [6] - 英伟达与Groq的交易并非为了补一块芯片,而是为了获取对执行路径的强约束、对延迟的可预测性以及编译器主导的算力使用方式等系统能力 [7] - 此次交易几乎具备收购的全部要素:技术被许可,团队被吸纳,关键人物离场,Groq最具决定性的资产已转移 [1] 英伟达构建集群控制体系的战略步骤 - **收购Bright Computing**:2022年1月,英伟达收购了集群管理工具Bright Computing(后更名为Base Command Manager),将其纳入AI Enterprise软件堆栈,按每个GPU每年4500美元的费用出售“系统能力”,把集群管理变为商业资产 [10][11] - **收购Run.ai**:2024年,英伟达收购Run.ai,其核心价值在于实现GPU资源的抽象化管理(多租户、弹性调度、GPU虚拟化),防止云厂商通过调度层稀释CUDA生态优势 [13] - **收购SchedMD**:2025年12月,英伟达收购了Slurm工作负载管理器背后的核心团队和技术支持公司SchedMD,Slurm在过去十年中约占Top500超级计算机60%的份额,是HPC和AI领域的事实标准 [17][18] - **整合与打包**:2024年10月,英伟达停止单独销售Bright Cluster Manager,仅将其作为AI Enterprise Stack的一部分提供,旨在将所有系统组件打包成不可分割的整体 [21] 英伟达构建的“生态城墙”三层结构 - **第一层:集群资源调度权**:通过Mellanox的网络互联、Bright Computing的集群管理、SchedMD的工作负载调度,控制算力连接、分配和执行的完整链条 [23] - **第二层:工作负载执行路径定义权**:通过Run.ai的GPU虚拟化、Mission Control的自动化部署和健康检查、Slurm的作业调度,共同定义任务如何运行,使迁移成本高企 [23] - **第三层:企业级支持与系统复杂度掌控权**:通过AI Enterprise许可证模式,将工具打包成“系统集成能力”商业服务,客户购买的是英伟达的优化经验与最佳实践 [24] - 这三层叠加使得客户理论上可选择其他硬件,但实践中迁移成本难以承受,英伟达的商业模式已从卖芯片质变为卖生态,GPU成为生态入口 [23][24]
英伟达吸收Groq定义AI下半场
华泰证券· 2026-01-12 16:37
报告行业投资评级 - 科技行业评级为“增持” [6] - 英伟达股票投资评级为“买入”,目标价为280.00美元 [7] 报告核心观点 - 英伟达以约200亿美元收购Groq,是其迄今披露的最大交易,旨在获取低时延推理核心IP与人才,前瞻性布局AI“下半场” [1][2] - 该交易反映英伟达对Agentic AI时代需求变化的判断,即时延正成为继算力之后的关键约束因素,英伟达意图通过整合Groq技术主动定义AI“下半场”的技术标准 [1][3] - 通过将Groq的确定性“反射式引擎”深度整合至CUDA与GPU技术栈,英伟达旨在加速推动Agentic经济走向主流,并在训练与实时推理两种核心范式下同时建立领先能力 [1][3][46] 根据相关目录分别总结 Groq架构的战略意义与核心差异 - Groq的核心产品是面向推理的专用ASIC——语言处理单元,其设计出发点并非追求更高算力,而是解决通用GPU架构中的“时延-吞吐权衡”问题,核心价值主张在于确定性 [9] - Groq采用编译器驱动架构,在编译期对所有指令与内存访问进行预调度,消除动态调度带来的时延抖动,从而实现Batch Size = 1场景下的低时延下限 [9][12] - 当前AI计算正分化为训练导向和部署导向两条路径:英伟达GPU是“吞吐优先”,优化批处理吞吐能力;Groq LPU是“时延优先”,专注于对Time to First Token高度敏感的实时交互式Agentic AI应用 [10] - Groq与英伟达GPU是高度互补关系,Groq服务于时延敏感型推理部署场景,而英伟达仍是AI模型训练及高吞吐批量推理的通用标准 [11] Groq实现低时延优势的架构设计 - **存储架构**:Groq LPU单芯片集成约230MB片上SRAM作为主存,提供80TB/s的确定性内存带宽和低于10ns的访问时延,显著高于英伟达B300 GPU的8TB/s HBM3E带宽,但容量有限,部署70B参数模型需约576颗芯片 [14][22] - **调度机制**:Groq将系统控制权前移至编译阶段,通过自研编译器GroqWare进行静态解析与全局调度,实现“零抖动”的确定性执行,P99时延与中位时延基本一致 [14][17] - **互连技术**:Groq的RealScale互连采用由编译器统一调度的芯片直连结构,最多支持576颗芯片组成一个同步运行的Mega-Chip,实现线性扩展和亚微秒级时延,而GPU依赖NVLink或InfiniBand,会引入不确定延迟 [18][25] Groq架构的约束与经济性 - **结构性约束**:Groq的确定性优势存在物理边界,其RealScale互连同步系统上限约为576颗芯片,超过此规模需回退至标准以太网,重新引入网络抖动 [26][34] - **经济性限制(SRAM Tax)**:Groq的SRAM架构导致前期资本开支显著高于英伟达平台,例如部署70B参数模型,Groq集群硬件投入约300万美元,而英伟达双B300卡配置仅需约8万美元 [35] - **经济可行性**:尽管前期资本开支高,但Groq在Batch Size = 1条件下能维持较高算力利用率,其单位token能耗显著更低,在交互型、实时型业务中可能具备更具竞争力的token运营成本 [37] - **市场细分**:时延敏感型推理正从小众需求变为主流,特别是在实时语音/电话推理、交互式聊天等对尾时延有刚性要求、且时延本身即产品价值的应用场景中,Groq具备经济可行性 [39][40] 英伟达收购Groq的战略动因与行业影响 - **战略动因**:收购旨在引入面向实时Agentic推理的超低时延AI加速器架构,补齐英伟达在低时延推理的短板,在AI产业“下半场”率先确立技术标准 [44] - **整合目标**:交易本质是“授权+人才并购”,英伟达获得Groq推理技术授权并引入其核心团队,旨在将确定性计算DNA注入CUDA生态,构建由GPU承担训练/批量推理、Groq技术服务实时推理的异构Agentic技术栈 [2][45][46] - **行业定位**:此次交易使英伟达在巩固训练端主导地位后,前瞻性布局以Agentic推理为核心的AI下半场,旨在削弱云厂商依托自研芯片从推理侧切入竞赛的潜在空间 [3][46] Groq与英伟达GPU的互补及Agentic AI支撑 - **分工协同**:在Agentic AI时代,英伟达GPU仍是模型训练阶段不可替代的“AI工厂”,而Groq LPU则充当专用的“推理引擎”,负责在交互端支撑智能体以极高速度完成“思考与推理” [47][49] - **性能表现**:Groq LPU通过推测式解码可实现约1,000-1,600+ tokens/秒的生成速度,使智能体能够运行较长的内部思维链推理流程,同时在用户体验层面保持“即时响应”的感知 [48][50] - **多智能体工作流**:Groq的RealScale互连能力将数千颗芯片同步为Mega-Chip,为多智能体工作流中频繁的任务交接提供确定性,避免抖动影响系统稳定性 [51] Groq与Tesla Dojo及谷歌TPU的对比 - **vs Tesla Dojo**:两者均依赖片上SRAM,但定位分化。Dojo目标是高吞吐训练工厂,因制造复杂度高及英伟达优势而受挫;Groq专注于确定性推理引擎,在交互式AI场景取得成功 [55][56] - **vs 谷歌TPU**:Groq与最初的TPU v1(由Jonathan Ross主导)理念一致,均“以推理为先”。现代TPU已演进为面向超大规模训练与服务的吞吐型平台,而Groq则将“推理优先”基因进一步强化为面向Agentic AI的确定性计算工具 [64][65][70] - **架构与存储对比**:TPU v7p采用192GB HBM3E,侧重容量;Groq LPU采用230MB片上SRAM,侧重80TB/s高带宽,规避“存储墙”时延 [72][73] 并入英伟达后Groq技术的发展方向 - **整合路径**:Groq的确定性调度机制与TruePoint数值体系将被纳入CUDA/TensorRT技术栈,英伟达后续架构将引入面向智能体优化的运行模式 [52][78] - **独立路线图**:Groq下一代芯片可能基于4nm制程开发,旨在提升晶体管密度以增加单芯片SRAM容量,并可能通过RealScale 2.0扩大同步计算域的规模 [80]