英伟达放弃GPU上LPU：新推理芯片被曝Groq即买即用，OpenAI第一个吃螃蟹

英伟达即将发布基于LPU架构的新推理芯片 - 公司计划在3月GTC大会上发布一套全新的AI推理系统，其核心是一颗专为推理优化的新芯片 [1] - 该芯片的首位大客户是OpenAI，后者在最新融资文件中计划扩大与英伟达的长期合作，包括使用3GW的专用推理算力以及在Vera Rubin系统上提供2GW的训练算力 [2][13] - 这款芯片的底层架构并非英伟达自研，而是由原Groq团队打造的LPU（语言处理单元）架构，这将是公司第一次在核心AI算力产品线上大规模引入外部架构设计 [5][6][15] 新芯片推出的战略背景与架构优势 - 此次行动基于去年一笔约200亿美元的交易，公司完成了对Groq核心技术与团队的“收购式招聘”，新芯片是这笔投资的首次落地 [7][8] - 选择引入成熟的LPU架构而非完全自研，是为了快速响应市场需求，体现了公司追求极致投资回报率的策略 [9][10][15] - 在推理场景下，传统GPU架构因数据在计算核心与外部HBM间频繁搬运而产生瓶颈，而LPU采用高密度片上SRAM，将数据贴近算力，极大缩短数据路径，理论最高速度可比GPU快100倍，更适配低延迟推理 [18][20][22] AI算力需求结构从训练向推理转移 - 随着Agent应用普及，AI算力结构正从“训练优先”向“推理优先”转移，推理成为规模更大、频率更高的长期负载 [24][25] - 训练追求大规模并行和总体吞吐量，而推理（尤其是decode阶段）追求“单token速度”和稳定低延迟响应，系统瓶颈更多来自数据移动而非算力本身 [20][43][45] - 公司正式将LPU纳入核心产品线，不仅是一款新芯片的发布，更是对算力重心转移的回应 [26][27] 市场竞争加剧与客户分散风险 - OpenAI等头部客户已在积极寻找更高效率的推理替代方案，例如OpenAI与Cerebras签署了数十亿美元的计算合作协议 [16][31] - 其他主要AI公司也在减少对英伟达方案的依赖：Anthropic更多依赖AWS与谷歌云的自研芯片；Meta与AMD达成大规模芯片订单合作以优化推理任务 [33][34] - 在国产方面，模型公司开始转向本土算力方案，例如DeepSeek将V4的早期访问权限独家授予华为并在昇腾平台完成迁移 [36][37] - 根据Bernstein Research预测，到2026年，华为在中国AI芯片市场份额可能达到50%，而英伟达份额或降至个位数 [39] 行业格局变化与英伟达的应对 - 推理市场正在重塑算力格局，成为主战场，客户开始分散风险 [27][42] - 竞争对手在强化推理专用架构布局：谷歌早已布局TPU；亚马逊在OpenAI融资计划中拿下计算生态合作权，将重点启用自研Trainium芯片；国内字节、阿里、百度等公司也开始亲自下场制造芯片 [40][41] - 尽管英伟达仍占据全球GPU市场超过90%，Hopper、Blackwell及即将登场的Rubin系列仍是训练主力，但面对推理需求暴涨和架构挑战，公司必须正面回应 [47][48] - 除了LPU芯片，公司还官宣将在今年GTC大会上发布“世界前所未见”的新系列产品，外界猜测可能包括Rubin系列新一代GPU或Feynman系列全新架构芯片 [49][50]