文章核心观点 - 英伟达计划以200亿美元收购Groq,旨在通过获取其LPU技术来强化在AI推理市场的竞争力,以应对包括谷歌TPU在内的新芯片范式带来的威胁,并弥补自身GPU在低延迟推理场景的短板 [1][13][15] 英伟达的战略布局与动机 - 英伟达此次收购被视作面向AI新时代的一次重大布局,旨在通过“钞能力”拉拢关键的“铲子”供应商,以巩固其市场地位 [1] - 收购反映出英伟达对谷歌TPU等新芯片范式崛起的担忧,希望通过引入Groq的新技术来帮助公司摆脱“创新者窘境” [1][13] - 此次收购标志着英伟达在称霸AI模型训练(预训练)市场后,正式大举进入竞争激烈的AI推理市场 [15] Groq LPU的技术优势与特点 - Groq的LPU在AI推理速度上远超GPU、TPU及大多数ASIC,其采用片上SRAM,无需从外部读取数据,速度比GPU快100倍 [2][9] - 在处理单个用户请求时,LPU能保持满负荷运转,生成速度可达每秒300–500个token [9] - LPU架构解决了GPU在推理decode阶段的根本瓶颈:GPU的数据主要存放在HBM(高带宽内存)中,每次生成token都需要从内存读取数据,导致大部分算力闲置,无法满足低延迟需求 [3][7][8] GPU在AI推理中的局限性 - GPU架构最初为图形并行处理设计,擅长AI推理的prefill(预填充)阶段,该阶段可并行处理所有输入token [7] - 但在decode(解码)阶段,任务变为串行生成token,且用户能感知每个token的生成延迟,此时GPU因需频繁从HBM读取数据而导致延迟高、算力利用率低,用户体验差 [7][8] - 即便如英伟达H200这样的高端GPU拥有高达141GB的HBM3e显存,在decode阶段也无法充分发挥其FLOPs(浮点运算能力) [8][11] LPU的技术代价与挑战 - LPU的片上SRAM内存容量远小于GPU的HBM,单颗Groq LPU芯片的SRAM仅为230MB [11] - 因此,运行大型AI模型需要连接成百上千颗LPU芯片,例如运行Llama-3 70B模型需要数百颗LPU,其硬件占地面积和整体投资将远大于仅需2-4张GPU的方案 [11][12] - 有观点指出,LPU所采用的SRAM可能无法胜任生成长下文的任务,但可通过与GPU等产品“混搭”的方式解决 [4] AI推理市场的需求与商业模式演变 - 市场已经证明,“速度”是AI推理场景真实存在且高速成长的巨大需求,用户愿意为此付费 [13] - 随着基础模型进展放缓,AI竞争重点正从训练层转向应用层,在应用市场中,推理速度对用户体验至关重要 [14] - 推理芯片被视为一项高销量、低利润的业务,这与训练所用GPU的高利润率(毛利率达70-80%)形成鲜明对比 [15] 行业竞争格局变化 - 谷歌通过自研TPU成功降低了对英伟达GPU的依赖,有效控制了训练和推理成本,证明了GPU并非AI时代的唯一解决方案 [14] - TPU的崛起为其他竞争者打开了突破口,AI芯片领域正根据技术发展的不同阶段进行调整,新玩家可能颠覆现有格局 [13][14]
老黄200亿“钞能力”回应谷歌:联手Groq,补上推理短板