英伟达即将发布基于LPU架构的新推理芯片 - 公司计划在3月GTC大会上发布一套全新的AI推理系统,其核心是一颗专为推理优化的新芯片 [1] - 该芯片的首位大客户是OpenAI,后者在最新融资文件中计划扩大与英伟达的长期合作,包括使用3GW的专用推理算力以及在Vera Rubin系统上提供2GW的训练算力 [2][13] - 这款芯片的底层架构并非英伟达自研,而是由原Groq团队打造的LPU(语言处理单元)架构,这将是公司第一次在核心AI算力产品线上大规模引入外部架构设计 [5][6][15] 新芯片推出的战略背景与架构优势 - 此次行动基于去年一笔约200亿美元的交易,公司完成了对Groq核心技术与团队的“收购式招聘”,新芯片是这笔投资的首次落地 [7][8] - 选择引入成熟的LPU架构而非完全自研,是为了快速响应市场需求,体现了公司追求极致投资回报率的策略 [9][10][15] - 在推理场景下,传统GPU架构因数据在计算核心与外部HBM间频繁搬运而产生瓶颈,而LPU采用高密度片上SRAM,将数据贴近算力,极大缩短数据路径,理论最高速度可比GPU快100倍,更适配低延迟推理 [18][20][22] AI算力需求结构从训练向推理转移 - 随着Agent应用普及,AI算力结构正从“训练优先”向“推理优先”转移,推理成为规模更大、频率更高的长期负载 [24][25] - 训练追求大规模并行和总体吞吐量,而推理(尤其是decode阶段)追求“单token速度”和稳定低延迟响应,系统瓶颈更多来自数据移动而非算力本身 [20][43][45] - 公司正式将LPU纳入核心产品线,不仅是一款新芯片的发布,更是对算力重心转移的回应 [26][27] 市场竞争加剧与客户分散风险 - OpenAI等头部客户已在积极寻找更高效率的推理替代方案,例如OpenAI与Cerebras签署了数十亿美元的计算合作协议 [16][31] - 其他主要AI公司也在减少对英伟达方案的依赖:Anthropic更多依赖AWS与谷歌云的自研芯片;Meta与AMD达成大规模芯片订单合作以优化推理任务 [33][34] - 在国产方面,模型公司开始转向本土算力方案,例如DeepSeek将V4的早期访问权限独家授予华为并在昇腾平台完成迁移 [36][37] - 根据Bernstein Research预测,到2026年,华为在中国AI芯片市场份额可能达到50%,而英伟达份额或降至个位数 [39] 行业格局变化与英伟达的应对 - 推理市场正在重塑算力格局,成为主战场,客户开始分散风险 [27][42] - 竞争对手在强化推理专用架构布局:谷歌早已布局TPU;亚马逊在OpenAI融资计划中拿下计算生态合作权,将重点启用自研Trainium芯片;国内字节、阿里、百度等公司也开始亲自下场制造芯片 [40][41] - 尽管英伟达仍占据全球GPU市场超过90%,Hopper、Blackwell及即将登场的Rubin系列仍是训练主力,但面对推理需求暴涨和架构挑战,公司必须正面回应 [47][48] - 除了LPU芯片,公司还官宣将在今年GTC大会上发布“世界前所未见”的新系列产品,外界猜测可能包括Rubin系列新一代GPU或Feynman系列全新架构芯片 [49][50]
英伟达放弃GPU上LPU:新推理芯片被曝Groq即买即用,OpenAI第一个吃螃蟹