解耦合推理(Disaggregated Inference) - 财报，业绩电话会，研报，新闻

解耦合推理(Disaggregated Inference)

搜索文档

研报 | 英伟达多元产品线分攻AI训练与推理需求，以应对CSP自研ASIC规模升级

TrendForce集邦· 2026-03-18 17:09

AI服务器市场格局与趋势 - 大型云端服务供应商正加大自研芯片力度，NVIDIA在GTC 2026大会上的战略重点从专注云端AI训练市场，转向着重推动各领域的AI推理应用落地[2] - NVIDIA通过推动GPU、CPU以及LPU等多元产品线，分别满足AI训练和AI推理需求，并借由整柜方案带动供应链成长[2] - 随着以Google、Amazon为首的CSP自研芯片态势扩大，预估ASIC AI服务器占整体AI服务器的出货比例将从2026年的27.8%，上升至2030年的近40%[2] NVIDIA的产品与战略布局 - NVIDIA为巩固市场领导地位，积极推动GB300、VR200等整合CPU、GPU的整柜式方案，强调可扩展至AI推理应用[5] - 在GTC大会发布的Vera Rubin被定义为高度垂直整合的完整系统，涵盖七款芯片和五款机柜[5] - GB300整柜系统已于2025年第四季取代GB200成为主力，预估至2026年其出货占比将达近80%[6] - VR200 Rack系统预计在2026年第三季度末可望逐步释放出货量能[6] NVIDIA在AI推理领域的技术创新 - AI进入代理模型时代，在生成Token的译码阶段面临严重的延迟与存储器带宽瓶颈[6] - NVIDIA整合Groq团队技术，推出专为低延迟推理设计的Groq 3 LPU，单颗内建500MB SRAM、整机柜可达128GB[6] - 为应对Vera Rubin等级的庞大参数与KV Cache，NVIDIA提出“解耦合推理”架构，通过名为Dynamo的AI工厂作业系统，将推理流水线拆分[7] - 在该架构下，Pre-fill、Attention运算阶段由具备极高吞吐量与巨量存储器的Vera Rubin执行，而译码与Token生成阶段则卸载至扩充了巨量存储器的LPU机柜[7] 关键产品供应链进展 - 观察Rubin供应链进度，预计2026年第二季存储器原厂可提供HBM4给Rubin GPU搭载使用，助力NVIDIA于第三季前后陆续出货Rubin芯片[5] - 第三代Groq LP30由Samsung代工，已进入全面量产阶段，预计于2026年下半年正式出货[7] - 未来规划在下一代Feynman架构中推出效能更高的LP40芯片[7]

英伟达(US:NVDA)

解耦合推理(Disaggregated Inference)

解耦合推理(Disaggregated Inference)