推理市场
搜索文档
重磅,英伟达将推中国版Groq芯片
半导体行业观察· 2026-03-18 07:39
英伟达的战略收购与产品布局 - 公司计划面向中国市场推出一款基于Groq技术的人工智能芯片,该芯片并非降级版本,预计将于5月上市 [1] - 公司已于2025年12月底以200亿美元收购了人工智能芯片初创公司Groq的大部分开发团队,并获得了其LPU数据流引擎的底层技术授权 [2] - 收购Groq旨在迅速整合其低延迟推理技术,以应对推理市场激烈的竞争,并弥补公司在推理领域的短板 [2][3] - 公司计划将Groq的LP30低延迟推理机架整合到其新一代Vera-Rubin平台中,形成一个名为Vera-Rubin-Groq的综合平台 [2][3] - 公司已重启面向中国市场的H200芯片生产,并着手为中国市场开发芯片版本 [1] 新一代芯片架构与性能对比 - 公司展示了基于“Rubin”架构的R200 GPU加速器,以及基于Groq技术的“Alan-3”LP30推理加速器,两者将协同工作以优化不同吞吐量和延迟范围内的推理性能 [5] - R200 GPU与LP30芯片在性能上存在显著差距:在FP8精度下,R200的理论峰值性能是LP30的21倍;若假设工作负载可利用FP4处理,则性能差距可达42倍 [7] - 然而,LP30作为“速度型芯片”,在实现合理交互水平时,每个令牌的生成成本可能更低,这主要得益于其不同的内存架构(使用SRAM而非昂贵的HBM)[7] - 公司通过扩大共享GPU内存域(如从Hopper NVL8升级到Grace-Blackwell NVL72,再到Vera-Rubin NVL72系统)来提升系统性能曲线,但主要是在纵向上移动曲线,而非向右拉伸以显著改善交互性 [8][10] - 将Groq LP30加入系统组合后,性能曲线得以向右拉伸,能够覆盖从对延迟不敏感的中端应用到需要极低延迟的超高端应用客户群体 [10][12] 市场定位与竞争格局 - 公司在人工智能系统训练市场占据主导地位,但在推理市场面临来自百度等中国人工智能巨头自研芯片的激烈竞争 [1] - 低延迟、高价代币的生成式人工智能工作负载预计将占人工智能集群总计算量的25%左右,这驱动了对Groq这类专有推理架构的需求 [3] - 行业正从人类与聊天机器人互动,向自主人工智能系统间对话过渡,这将处理数量级更大的令牌,并对延迟极为敏感,从而使Groq、Cerebras和SambaNova等架构变得更为重要 [8] - 公司通过整合Groq技术,旨在用两条帕累托性能曲线覆盖从免费到高级的各种推理服务层级,以全面满足市场需求 [8] 产品演进与营收策略 - 公司取消了之前预览的Rubin CPX大型上下文计算引擎项目,转而将工作重点集中在将LPU集成到Rubin平台以优化解码 [4] - 与三星合作,计划在2026年第三季度将第三代LP30芯片推向市场 [2] - 通过架构升级,公司实现了显著的性能提升:与使用Hopper H100 GPU的HGX NVL8系统相比,推测的Vera-Rubin R200 NVL72系统仅需一半数量的GPU即可实现13.3倍的人工智能处理性能提升,其中部分提升(约2倍)源于对FP4数据精度的支持 [14] - 尽管客户可能只需更少数量的GPU,但由于新一代系统单价可能上涨数倍,公司的营收和利润有望大幅提升,尤其是在当前需求远超供应的情况下 [15]
砸崩算力股,重挫英伟达,这份报告究竟说了什么?
华尔街见闻· 2025-03-27 18:32
文章核心观点 - TD Cowen报告指出,微软在美国和欧洲大规模取消及推迟数据中心租约,涉及容量超过2吉瓦,表明其数据中心供应相对于当前需求预测可能过剩 [1][4][7] - 微软的调整主要源于决定不再支持增量OpenAI训练工作负载,旨在为自身云和推理工作负载保留中期核心市场容量 [7][18] - 微软的退出为其他超大规模运营商创造了机会,谷歌和Meta正积极填补空缺,数据中心整体需求仍呈现同比增长 [4][8][18] - 超大规模数据中心运营商正重新设计数据中心以支持更高机架密度,导致设备订单短期放缓,可能对设备供应商如Vertiv的2025年上半年订单产生负面影响 [9][10][17][20] - 推理市场的快速进入成为关键驱动力,超大规模运营商正通过改造现有数据中心(如部署空气辅助液体冷却)来更快地解锁用于推理的电力容量 [12][21] 微软数据中心策略调整 - 过去六个月内,微软已放弃在美国和欧洲超过2吉瓦的数据中心容量,并取消及推迟了多项现有租约 [7][18] - 微软收缩新容量租赁主要由于决定不再支持增量OpenAI训练工作负载 [7][18] - 微软此举旨在为自身云和推理工作负载保留中期核心市场容量,同时取消超出其更新后中期容量需求的租约 [7][18] - 微软表示,在截至6月的本财年内将花费约800亿美元建设AI数据中心,但此后的增长速度将开始放缓,支出将从新建项目转向为数据中心配备服务器及其他设备 [15] 行业需求格局变化 - 谷歌正在国际市场填补微软放弃的容量,而Meta则在美国接手相关容量 [8][19] - 谷歌和Meta的数据中心需求都呈现出显著的同比增长 [4][19] - 谷歌的需求增长部分源于全球容量短缺及其内部计划提高现有数据中心机队利用率 [19] - Meta的需求增长是因为其正在大幅增加数据中心容量以支持Llama模型 [19] OpenAI的长期容量规划 - OpenAI正越来越多地寻求直接从第三方(包括GPU即服务提供商和第三方数据中心运营商)获取数据中心容量,例如最近与CoreWeave宣布的交易 [9][19] - OpenAI计划创建多个“星门”项目,每个代表800兆瓦至1.5吉瓦的容量,潜在长期容量需求总计可能超过6吉瓦 [9][19] - OpenAI正从其他超大规模运营商招聘具有设计、建设及容量规划经验的人员,表明其有潜力在中长期开始自建数据中心 [9][19] 数据中心设备订单趋势 - 数据中心设备订单正在放缓,这一趋势始于今年1月,源于超大规模运营商正在重新设计其数据中心以支持更高的机架密度 [9][20] - 微软已敲定液冷对液冷解决方案,其他超大规模运营商(如谷歌)也在进行类似的重新设计 [9][20] - 在确定新设计之前,运营商无法下单购买设备,导致采购决策被推迟,租赁的超大规模容量订单已被推迟一到两个季度 [10][20] - 设备订单短期放缓,加上第三方数据中心运营商的大量设备仓储,可能会对2025年上半年Vertiv的设备订单量产生负面影响 [10][17][20] 推理市场与数据中心改造 - 微软在2024年10月通知选定的数据中心运营商,打算改造现有数据中心以支持液体冷却 [12][21] - 微软有一项内部计划,通过辅助设备部署空气辅助液体冷却,以支持传统云数据中心更高的机架密度 [12][21] - 这种空气辅助液体冷却是改造传统数据中心的更具成本效益的方式,允许对高密度负载进行“局部冷却”而无需改造整个数据中心 [12][21] - 改造的一个关键动机是推理市场的快速进入,通过液体冷却在主要市场收集电力,超大规模运营商可以比获取新容量更快地解锁用于推理的电力容量 [12][21] - 至少有两家超大规模运营商正在追求这种近期支持推理的方式 [12][21] 市场反应与公司回应 - 报告发布后,美股芯片股跌幅扩大,费城半导体指数收跌约3.3% [2] - 英伟达收跌超5.7%,领跌科技七巨头,AI概念股普跌,超微电脑收跌近8.9% [2] - 微软回应称,得益于重大投资,已具备满足当前及增长客户需求的有利条件,去年新增产能创历史最高纪录 [13] - 微软表示可能会在某些领域战略性地调整或放缓基础设施建设步伐,但将在所有地区持续保持强劲增长 [14]