AI推理 - 财报，业绩电话会，研报，新闻

AI推理

搜索文档

36氪· 2025-12-28 16:27

文章核心观点 - 英伟达计划以200亿美元收购Groq，旨在通过获取其LPU技术来强化在AI推理市场的竞争力，以应对包括谷歌TPU在内的新芯片范式带来的威胁，并弥补自身GPU在低延迟推理场景的短板 [1][13][15] 英伟达的战略布局与动机 - 英伟达此次收购被视作面向AI新时代的一次重大布局，旨在通过“钞能力”拉拢关键的“铲子”供应商，以巩固其市场地位 [1] - 收购反映出英伟达对谷歌TPU等新芯片范式崛起的担忧，希望通过引入Groq的新技术来帮助公司摆脱“创新者窘境” [1][13] - 此次收购标志着英伟达在称霸AI模型训练（预训练）市场后，正式大举进入竞争激烈的AI推理市场 [15] Groq LPU的技术优势与特点 - Groq的LPU在AI推理速度上远超GPU、TPU及大多数ASIC，其采用片上SRAM，无需从外部读取数据，速度比GPU快100倍 [2][9] - 在处理单个用户请求时，LPU能保持满负荷运转，生成速度可达每秒300–500个token [9] - LPU架构解决了GPU在推理decode阶段的根本瓶颈：GPU的数据主要存放在HBM（高带宽内存）中，每次生成token都需要从内存读取数据，导致大部分算力闲置，无法满足低延迟需求 [3][7][8] GPU在AI推理中的局限性 - GPU架构最初为图形并行处理设计，擅长AI推理的prefill（预填充）阶段，该阶段可并行处理所有输入token [7] - 但在decode（解码）阶段，任务变为串行生成token，且用户能感知每个token的生成延迟，此时GPU因需频繁从HBM读取数据而导致延迟高、算力利用率低，用户体验差 [7][8] - 即便如英伟达H200这样的高端GPU拥有高达141GB的HBM3e显存，在decode阶段也无法充分发挥其FLOPs（浮点运算能力） [8][11] LPU的技术代价与挑战 - LPU的片上SRAM内存容量远小于GPU的HBM，单颗Groq LPU芯片的SRAM仅为230MB [11] - 因此，运行大型AI模型需要连接成百上千颗LPU芯片，例如运行Llama-3 70B模型需要数百颗LPU，其硬件占地面积和整体投资将远大于仅需2-4张GPU的方案 [11][12] - 有观点指出，LPU所采用的SRAM可能无法胜任生成长下文的任务，但可通过与GPU等产品“混搭”的方式解决 [4] AI推理市场的需求与商业模式演变 - 市场已经证明，“速度”是AI推理场景真实存在且高速成长的巨大需求，用户愿意为此付费 [13] - 随着基础模型进展放缓，AI竞争重点正从训练层转向应用层，在应用市场中，推理速度对用户体验至关重要 [14] - 推理芯片被视为一项高销量、低利润的业务，这与训练所用GPU的高利润率（毛利率达70-80%）形成鲜明对比 [15] 行业竞争格局变化 - 谷歌通过自研TPU成功降低了对英伟达GPU的依赖，有效控制了训练和推理成本，证明了GPU并非AI时代的唯一解决方案 [14] - TPU的崛起为其他竞争者打开了突破口，AI芯片领域正根据技术发展的不同阶段进行调整，新玩家可能颠覆现有格局 [13][14]