7位专家拆解GTC,结论让英伟达难堪
英伟达英伟达(US:NVDA) 雷峰网·2026-03-19 08:41

英伟达GTC 2026核心叙事转变 - 英伟达在GTC 2026上宣布AI正从“模型训练时代”加速迈入“模型推理时代”,整个AI技术栈的组织方式被重新定义 [7] - 叙事重心从“更强的GPU”转向“如何组织算力”,数据中心被重新定义为生产Token的“AI工厂”,衡量标准从单卡性能转向Token产出效率(Tokens/W)[3][4][17] - 公司推出包括Vera Rubin平台、LPX推理机架及Feynman架构在内的新叙事,从单一GPU主导转向多处理器协同的“AI工厂” [3][7] 推理时代硬件架构的演变 - 英伟达承认GPU并非推理最优解,推出专用推理处理器LPU,标志着AI基础设施从通用走向分工 [3][8] - 在Transformer推理中,Prefill、Decode、Orchestration三个阶段开始由不同硬件承担,LPX专门优化Decode阶段 [9] - GPU依然是训练和复杂推理(如视频生成)的最优解,而LPU等专用架构在低延迟、轻算力推理场景显示出优势,未来数据中心将是多元处理器各安其位的图景 [9][12] - 公司推出Vera CPU,其核心是掌握AI工厂内部的算力编排权,而非直接与x86竞争,短期内对x86格局冲击有限 [13] LPU的定位与市场影响 - LPU的推出是英伟达对GPU在推理场景非最优解的承认,但公司仍将LPU与GPU捆绑组合,以维持生态延续 [8] - LPU短期内难以成为主力,其经济性存疑:单芯片集成500MB片上SRAM,而SRAM价格是HBM的6-8倍,会抬高成本,且受工具链融合滞后影响 [10][11] - 头部云厂商的推理需求将坚定走向自研ASIC路线,英伟达的GPU+LPU方案重点客户可能是中小互联网客户 [8] - CPX(负责Prefill阶段)在发布会上未被提及,出乎部分行业人士意料 [12] Token经济与万亿美元营收愿景 - 黄仁勋认为Token已成为AI时代的硬通货,并宣称英伟达的Token成本全球最低 [17] - 公司预测到2027年,仅Blackwell和Vera Rubin两条产品线的AI芯片营收将至少达到1万亿美元,相比去年预测翻倍,原因是“过去两年计算需求增长了一百万倍” [18] - 若叠加CPU、Groq、存储及网络设备,总规模或将达到1.25万亿美元 [18] - 行业竞争的核心正转向Token的生产、计量与分配主导权,如同电力时代的电网,AI时代正围绕Token形成全新产业生态 [20][22] - 推理环节才是算力消耗的主力,需持续生成Token,Token的成本高低直接决定AI的普及程度 [22] 系统级竞争与生态闭环 - 英伟达的竞争护城河正从“算力垄断”转向“生态闭环”,通过绑定上下游构建垂直整合的产业链控制力 [21] - 算力竞争的度量体系正在从芯片峰值参数走向端到端系统能效(Tokens/W),英伟达在系统级优化上具有优势 [19] - 公司正以Vera CPU、Rubin GPU、NVLink 6、Spectrum-X交换机等“全家桶”组合重构系统解决方案,叙事重心从单颗芯片转向系统级交付 [26] - 英伟达尝试构建包括台积电、美光、三星等在内的联盟,以锁定先进封装与存储资源 [26] 互连技术与CPO的挑战 - 英伟达在Vera Rubin平台部署第六代NVLink,并推出全球首个CPO(光电共封装)Spectrum-X以太网交换机,目前已进入量产阶段 [25] - CPO的推广面临挑战:维护便利性及成本较高、核心芯片良率偏低导致系统成本高、在短距离内铜互联比光互联更有优势 [27] - 技术的庞杂产品矩阵与“加法”生态,被部分观点认为是对手(如谷歌简洁ASIC架构)用“减法”定义下一代基础设施时的包袱 [26] - 随着Scaling Law对带宽需求的极致放大,铜与光的界限在发生改变,光互联替代铜互联是明确方向,但尚需时日 [28] 智能体(Agent)与AaaS时代 - 英伟达将OpenClaw定位为定义“智能体计算机”的下一代操作系统,重要性类比Linux之于服务器 [32] - 黄仁勋判断未来绝大多数SaaS都将演变为AaaS(智能体即服务),“你的OpenClaw战略是什么?”将成为科技公司的核心命题 [32] - AI智能体对当前SaaS业态带来冲击,按席位订阅的商业模式逐步失效,企业必须走向AI化,打造和运营自主智能体 [33] - Token分层定价将成为AI时代商业模式的自然演进,实现成本与价值的精准匹配 [33] - OpenClaw是以CPU为主的控制与编排系统,外接GPU推理后端,因此Agent越流行,CPU的总需求就越高 [35] - 未来数据中心的基础设施衡量标准将从比拼“模型能力”转向“同等投资下可支撑的持续在线Agent数量”,推动从单一GPU算力转向GPU+CPU双芯驱动 [35]