低延迟推理 - 财报，业绩电话会，研报，新闻

低延迟推理

搜索文档

半导体行业观察· 2026-03-18 07:39

英伟达的战略收购与产品布局 - 公司计划面向中国市场推出一款基于Groq技术的人工智能芯片，该芯片并非降级版本，预计将于5月上市 [1] - 公司已于2025年12月底以200亿美元收购了人工智能芯片初创公司Groq的大部分开发团队，并获得了其LPU数据流引擎的底层技术授权 [2] - 收购Groq旨在迅速整合其低延迟推理技术，以应对推理市场激烈的竞争，并弥补公司在推理领域的短板 [2][3] - 公司计划将Groq的LP30低延迟推理机架整合到其新一代Vera-Rubin平台中，形成一个名为Vera-Rubin-Groq的综合平台 [2][3] - 公司已重启面向中国市场的H200芯片生产，并着手为中国市场开发芯片版本 [1] 新一代芯片架构与性能对比 - 公司展示了基于“Rubin”架构的R200 GPU加速器，以及基于Groq技术的“Alan-3”LP30推理加速器，两者将协同工作以优化不同吞吐量和延迟范围内的推理性能 [5] - R200 GPU与LP30芯片在性能上存在显著差距：在FP8精度下，R200的理论峰值性能是LP30的21倍；若假设工作负载可利用FP4处理，则性能差距可达42倍 [7] - 然而，LP30作为“速度型芯片”，在实现合理交互水平时，每个令牌的生成成本可能更低，这主要得益于其不同的内存架构（使用SRAM而非昂贵的HBM）[7] - 公司通过扩大共享GPU内存域（如从Hopper NVL8升级到Grace-Blackwell NVL72，再到Vera-Rubin NVL72系统）来提升系统性能曲线，但主要是在纵向上移动曲线，而非向右拉伸以显著改善交互性 [8][10] - 将Groq LP30加入系统组合后，性能曲线得以向右拉伸，能够覆盖从对延迟不敏感的中端应用到需要极低延迟的超高端应用客户群体 [10][12] 市场定位与竞争格局 - 公司在人工智能系统训练市场占据主导地位，但在推理市场面临来自百度等中国人工智能巨头自研芯片的激烈竞争 [1] - 低延迟、高价代币的生成式人工智能工作负载预计将占人工智能集群总计算量的25%左右，这驱动了对Groq这类专有推理架构的需求 [3] - 行业正从人类与聊天机器人互动，向自主人工智能系统间对话过渡，这将处理数量级更大的令牌，并对延迟极为敏感，从而使Groq、Cerebras和SambaNova等架构变得更为重要 [8] - 公司通过整合Groq技术，旨在用两条帕累托性能曲线覆盖从免费到高级的各种推理服务层级，以全面满足市场需求 [8] 产品演进与营收策略 - 公司取消了之前预览的Rubin CPX大型上下文计算引擎项目，转而将工作重点集中在将LPU集成到Rubin平台以优化解码 [4] - 与三星合作，计划在2026年第三季度将第三代LP30芯片推向市场 [2] - 通过架构升级，公司实现了显著的性能提升：与使用Hopper H100 GPU的HGX NVL8系统相比，推测的Vera-Rubin R200 NVL72系统仅需一半数量的GPU即可实现13.3倍的人工智能处理性能提升，其中部分提升（约2倍）源于对FP4数据精度的支持 [14] - 尽管客户可能只需更少数量的GPU，但由于新一代系统单价可能上涨数倍，公司的营收和利润有望大幅提升，尤其是在当前需求远超供应的情况下 [15]