Nvidia-英伟达放弃GPU上LPU：新推理芯片被曝Groq即买即用，OpenAI第一个吃螃蟹

英伟达新产品战略 - 公司计划在3月的GTC大会上发布一套全新的、专为AI推理优化的计算系统，其核心是一颗新芯片 [1] - 该芯片的首位大客户是OpenAI，该公司刚刚完成了1100亿美元的巨额融资 [1] - 这是公司第一次在核心AI算力产品线上大规模引入外部架构设计，其底层架构来自原Groq团队打造的LPU（语言处理单元）[3] - 此次引入外部架构源于去年一笔价值约200亿美元的交易，公司完成了对Groq核心技术与团队的收购式招聘 [3][10] - 公司采用收购成熟方案并快速部署的策略，旨在追求极致的投资回报率 [3] 新产品技术细节与优势 - 新产品是基于LPU架构的推理计算系统，而非传统的GPU [4] - LPU架构采用高密度片上SRAM，将数据紧贴算力单元，极大缩短数据路径，从架构层面降低延迟与能耗，更适配低延迟推理场景 [8] - 在特定推理场景下，LPU的理论最高速度可比GPU快100倍 [8] - 在AI推理的decode阶段，系统瓶颈更多来自数据移动而非算力本身，GPU因需要频繁在计算核心与外部HBM间搬运数据而不够高效，LPU则通过架构调整更贴合推理负载 [6][7][20] 市场背景与竞争格局 - AI算力结构正从“训练优先”向“推理优先”转移，推理成为规模更大、频率更高的长期负载，成本成为核心变量 [10][12][13] - 头部AI客户开始积极寻找更高效率的推理替代方案，以分散风险并降低成本 [6][16] - OpenAI已与Cerebras签署了价值数十亿美元的计算合作协议，后者芯片在特定场景下宣称快于英伟达GPU [13] - Anthropic更多依赖AWS与Google Cloud的自研芯片，Meta与AMD达成大规模芯片订单合作以优化推理并减少对英伟达的依赖 [13] - 在中国市场，模型公司开始转向本土算力方案，例如DeepSeek将V4的早期访问权限授予华为并在昇腾平台完成迁移 [14] - 据Bernstein Research预测，到2026年，华为在中国AI芯片市场份额可能达到50%，而英伟达份额或降至个位数 [15] - 谷歌、亚马逊等云厂商也在推动自研芯片在高频推理场景的落地 [15] - 这是AI浪潮以来，英伟达第一次在核心硬件层面面临架构挑战 [21] 客户合作与需求印证 - 在OpenAI最新的融资文件中，计划扩大与英伟达的长期合作，包括使用3GW的专用推理算力，以及在Vera Rubin系统上提供2GW的训练算力 [6] - 即将发布的LPU推理芯片极有可能对应OpenAI融资文件中提到的“专用推理算力”部分 [6] 公司其他产品动态 - 除了LPU推理芯片，公司还预告将在今年GTC大会上发布“世界前所未见”的新系列产品 [22] - 外界猜测新产品可能包括Rubin系列新一代GPU或Feynman系列全新架构芯片 [23]