7位专家拆解GTC，结论让英伟达难堪

英伟达GTC 2026核心叙事转变 - 英伟达在GTC 2026上宣布AI正从“模型训练时代”加速迈入“模型推理时代”，整个AI技术栈的组织方式被重新定义 [7] - 叙事重心从“更强的GPU”转向“如何组织算力”，数据中心被重新定义为生产Token的“AI工厂”，衡量标准从单卡性能转向Token产出效率（Tokens/W）[3][4][17] - 公司推出包括Vera Rubin平台、LPX推理机架及Feynman架构在内的新叙事，从单一GPU主导转向多处理器协同的“AI工厂” [3][7] 推理时代硬件架构的演变 - 英伟达承认GPU并非推理最优解，推出专用推理处理器LPU，标志着AI基础设施从通用走向分工 [3][8] - 在Transformer推理中，Prefill、Decode、Orchestration三个阶段开始由不同硬件承担，LPX专门优化Decode阶段 [9] - GPU依然是训练和复杂推理（如视频生成）的最优解，而LPU等专用架构在低延迟、轻算力推理场景显示出优势，未来数据中心将是多元处理器各安其位的图景 [9][12] - 公司推出Vera CPU，其核心是掌握AI工厂内部的算力编排权，而非直接与x86竞争，短期内对x86格局冲击有限 [13] LPU的定位与市场影响 - LPU的推出是英伟达对GPU在推理场景非最优解的承认，但公司仍将LPU与GPU捆绑组合，以维持生态延续 [8] - LPU短期内难以成为主力，其经济性存疑：单芯片集成500MB片上SRAM，而SRAM价格是HBM的6-8倍，会抬高成本，且受工具链融合滞后影响 [10][11] - 头部云厂商的推理需求将坚定走向自研ASIC路线，英伟达的GPU+LPU方案重点客户可能是中小互联网客户 [8] - CPX（负责Prefill阶段）在发布会上未被提及，出乎部分行业人士意料 [12] Token经济与万亿美元营收愿景 - 黄仁勋认为Token已成为AI时代的硬通货，并宣称英伟达的Token成本全球最低 [17] - 公司预测到2027年，仅Blackwell和Vera Rubin两条产品线的AI芯片营收将至少达到1万亿美元，相比去年预测翻倍，原因是“过去两年计算需求增长了一百万倍” [18] - 若叠加CPU、Groq、存储及网络设备，总规模或将达到1.25万亿美元 [18] - 行业竞争的核心正转向Token的生产、计量与分配主导权，如同电力时代的电网，AI时代正围绕Token形成全新产业生态 [20][22] - 推理环节才是算力消耗的主力，需持续生成Token，Token的成本高低直接决定AI的普及程度 [22] 系统级竞争与生态闭环 - 英伟达的竞争护城河正从“算力垄断”转向“生态闭环”，通过绑定上下游构建垂直整合的产业链控制力 [21] - 算力竞争的度量体系正在从芯片峰值参数走向端到端系统能效（Tokens/W），英伟达在系统级优化上具有优势 [19] - 公司正以Vera CPU、Rubin GPU、NVLink 6、Spectrum-X交换机等“全家桶”组合重构系统解决方案，叙事重心从单颗芯片转向系统级交付 [26] - 英伟达尝试构建包括台积电、美光、三星等在内的联盟，以锁定先进封装与存储资源 [26] 互连技术与CPO的挑战 - 英伟达在Vera Rubin平台部署第六代NVLink，并推出全球首个CPO（光电共封装）Spectrum-X以太网交换机，目前已进入量产阶段 [25] - CPO的推广面临挑战：维护便利性及成本较高、核心芯片良率偏低导致系统成本高、在短距离内铜互联比光互联更有优势 [27] - 技术的庞杂产品矩阵与“加法”生态，被部分观点认为是对手（如谷歌简洁ASIC架构）用“减法”定义下一代基础设施时的包袱 [26] - 随着Scaling Law对带宽需求的极致放大，铜与光的界限在发生改变，光互联替代铜互联是明确方向，但尚需时日 [28] 智能体（Agent）与AaaS时代 - 英伟达将OpenClaw定位为定义“智能体计算机”的下一代操作系统，重要性类比Linux之于服务器 [32] - 黄仁勋判断未来绝大多数SaaS都将演变为AaaS（智能体即服务），“你的OpenClaw战略是什么？”将成为科技公司的核心命题 [32] - AI智能体对当前SaaS业态带来冲击，按席位订阅的商业模式逐步失效，企业必须走向AI化，打造和运营自主智能体 [33] - Token分层定价将成为AI时代商业模式的自然演进，实现成本与价值的精准匹配 [33] - OpenClaw是以CPU为主的控制与编排系统，外接GPU推理后端，因此Agent越流行，CPU的总需求就越高 [35] - 未来数据中心的基础设施衡量标准将从比拼“模型能力”转向“同等投资下可支撑的持续在线Agent数量”，推动从单一GPU算力转向GPU+CPU双芯驱动 [35]