Workflow
Nvidia Groq 3 LPU
icon
搜索文档
推理芯片时代,正式开启
半导体行业观察· 2026-03-17 10:27
英伟达发布新一代推理芯片Groq 3 LPU - 在GTC大会上,英伟达首席执行官黄仁勋宣布推出专为人工智能推理设计的新一代芯片Nvidia Groq 3语言处理单元(LPU),该芯片融合了公司以200亿美元从初创公司Groq获得授权的知识产权[2] - 黄仁勋强调人工智能推理的转折点已经到来,指出AI需要进行推理以完成思考和行动,推理任务对低延迟有极高要求[2] - 英伟达Groq 3 LPU的发布距其与Groq达成合作协议仅两个半月,凸显了推理市场发展的紧迫性[3] 推理芯片的技术架构与优势 - Groq的加速推理方法采用芯片上处理单元和SRAM内存交错排列的设计,取代了GPU常用的高带宽内存(HBM),实现了简化的线性数据流,以满足低延迟需求[5] - 与Rubin GPU相比,Groq 3 LPU仅配备500 MB的SRAM内存,运算速度为每秒1.2千万亿次浮点运算(petaFLOPS),但其内存带宽高达每秒150 TB,是Rubin GPU(每秒22 TB)的七倍,这种设计使其在推理任务上表现卓越[6] - 推理分解技术成为趋势,亚马逊网络服务(AWS)部署的系统将推理分为预填充和解码两部分,Cerebras CS-3芯片通过集成44 GB的SRAM和21 PB/s的网络连接来解决内存带宽问题[7] - 英伟达计划在其Nvidia Groq 3 LPX组合计算托盘中利用推理分解技术,每个托盘容纳8个Groq 3 LPU和一个Vera Rubin(结合了Rubin GPU与Vera CPU),以充分发挥各自优势,目前该产品已开始量产[8] 推理芯片市场的竞争格局与驱动力 - 分析指出,训练AI模型是成本支出,而推理是能直接产生收入的“利润中心”,低延迟能创造更多收入[9] - GPU(主要由英伟达主导)在大型训练和推理中占主导,但推理需求的激增正在创造GPU以外的机会,尤其是在企业从试点转向生产阶段之际[9] - 对于许多规模较小的公司(如员工约1万而非10万),在部署AI时面临电力、散热和GPU供应限制,使得GPU密集型集群不切实际,这为专用推理芯片创造了机会[10][11] - 根据Futurum Group 2025年11月的调查,到2025年,GPU占数据中心计算支出的58%;到2026年,XPU(如ASIC和定制加速器)预计增长22%,超过GPU(19%)和CPU(14%)[11] - 随着推理工作负载总量超过训练,对架构多样性的需求更大,因为替代XPU架构可以在特定推理任务上实现更高效率[12] 主要厂商的推理战略布局 - 英伟达已意识到对专用推理处理器的需求,2024年其数据中心约40%的收入来自推理业务;2025年9月发布了专为大规模上下文推理设计的Rubin CPX GPU[12] - 除了计划收购SambaNova,英特尔在其至强CPU中集成AMX加速器,并提供专用于推理的Gaudi AI加速器[13] - AMD在2025年11月收购了推理初创公司MK1,以优化其GPU在大规模企业部署中的高速推理[13] - 谷歌最新的TPU芯片和高通即将推出的AI200/AI250芯片也被视为推理领域的有力竞争者[13] - 数据中心推理领域的其他竞争者包括Cerebras(其系统约70%的工作负载集中在推理)和基于RISC-V的Tenstorrent[14][15] - 韩国公司如FuriosaAI和Rebellions也在NPU(网络处理单元)领域从边缘到数据中心进行多元化发展[15] 初创公司机遇与市场挑战 - 初创公司正在解决影响推理性能的内存和网络瓶颈,例如SiFive推出协处理器以降低内存延迟,NeuReality推出支持超以太网规范的网络接口卡,d-Matrix的内存解决方案据称运行速度比HBM快四倍且成本更低[16] - 分析师预计英伟达将保持主导,但多样化的需求为专业解决方案提供了抢占市场份额的空间,市场仍处于早期阶段,有足够空间容纳众多供应商[14][18] - 尽管GPU因其可编程性和多功能性仍占主导,但专用推理芯片在成本、功耗和性能上的优势创造了巨大机遇,主流企业预计在2026年更广泛采用技术,可能释放对以推理为中心的初创公司的需求[18] - 市场可能出现更多整合,一些早期初创企业面临挑战,例如SambaNova以16亿美元出售被视为“甩卖”[18]