刚刚，老黄携GB300震撼登场！DeepSeek推理暴涨40倍加速全球最快，26年Rubin问世

文章核心观点英伟达在GTC大会展示过去一年进展，发布新产品路线图，强调Scaling Law未撞墙，未来数据中心建设规模将达万亿美元，还推出开源推理软件和通用机器人模型，有望在AI和机器人领域持续引领发展[1][23][27] 分组1：大会亮点与行业趋势 - 英伟达老黄在GTC大会介绍过去一年进展，称今年GTC是AI的超级碗，每个人都是赢家 [2] - Blackwell全面投产，因AI拐点至，训练推理AI/智能体系统对计算量需求大增 [3] - 英伟达预言未来有工厂的公司将有实体工厂和AI工厂，CUDA核心及算力将引爆行业变革 [4] - 通用计算到尽头，行业正从通用计算机转向加速器和GPU上运行的机器学习软件，计算机成为生成token的工具 [28] - 加速计算趋势无法阻挡，AI将进入各行业，英伟达CUDA - X库为科学领域提供加速框架 [29] 分组2：产品路线图 - AI芯片每年一更，下一代Rubin明年亮相，英伟达构建云上、企业和机器人AI基础设施 [5][8] - 今年下半年将问世的Blackwell Ultra提升训练和测试时推理能力，显存从192GB提升到288GB，GB300 NVL72的AI性能比NVIDIA GB200 NVL72高出1.5倍 [6][7] - 2026年下半年预计发布Vera Rubin，推理时每秒50千万亿次浮点运算，比Blackwell速度高出一倍多，显存升级为HBM4，带宽从8TB/s提高到13TB/s，扩展NVLink吞吐量提升到260TB/s，机架间CX9链路达28.8TB/s [9][10] - 2027年下半年预计推出Rubin Ultra版本，FP4精度推理性能达15 ExaFLOPS，FP8精度训练性能为5 ExaFLOPS，相比GB300 NVL72性能有14倍提升，配备HBM4e内存，带宽为4.6 PB/s，支持NVLink 7，带宽为1.5 PB/s，较上一代提升12倍，机架支持CX9，带宽达115.2 TB/s [11] - 2028年将上市Feynman，命名致敬美国理论物理学家Richard Feynman [17] 分组3：桌面级产品 - 推出Blackwell RTX PRO工作站和服务器系列，包括数据中心、桌面和笔记本GPU，为开发者等提供AI支持，RTX PRO 6000 Blackwell吞吐量高达1.5倍，第五代Tensor Core每秒4000万亿次AI运算，第四代RT Core性能提升2倍 [19] - 带来两款由Blackwell驱动的DGX个人桌面AI超级计算机DGX Spark和DGX Station，DGX Spark是最小的AI超级计算机，配备128GB内存，核心是GB10 Grace Blackwell超级芯片，每秒1000万亿次AI计算能力；DGX Station将数据中心级性能带到桌面，采用GB300 Grace Blackwell Ultra桌面超级芯片，配备784GB统一内存 [20][22] 分组4：Scaling Law与数据中心 - 老黄称Scaling Law没撞墙，推理计算量需求大增，数据可通过强化学习和合成数据获取，AI处于转折点 [25][26] - 2024年全球TOP 4云服务商买进130万块Hopper架构芯片，预计2028年数据中心建设规模达一万亿美元 [27] 分组5：架构与扩展 - 英伟达通过网络InfiniBand和Spectrum X实现scale up，Spectrum X具备低延迟和拥塞控制特性，成功扩展最大单GPU集群 [14] - 官宣首个共封装硅光子系统，每秒1.6T的CPO，基于「微环谐振器调制器」技术，用台积电工艺构建，可扩展至数十万甚至百万GPU规模 [15][16] - HGX系统架构解决纵向扩展问题，包含8个GPU，通过MVLink 8连接到CPU架，再通过PCI Express连接，用InfiniBand连接多个设备，NVLink交换机让GPU全带宽通信，液冷压缩计算节点，实现一个机架Exaflops级超算 [31][32][33] 分组6：推理Scaling问题与解决 - 推理Scaling是「终极计算」问题，推理中响应时间和吞吐量存在矛盾，需最大化生成token曲线下方面积，还需巨大带宽和浮点运算能力 [36] - 传统LLM用不到500个token快速回答问题但结果错误，推理模型需超8000个token推理简单问题，计算量增加150倍，万亿级参数模型需通过管线、张量和专家并行组合解决，NVlink可实现规模终极Scaling [37][38][39] 分组7：NVIDIA Dynamo - 发布开源推理软件NVIDIA Dynamo，被称为「AI工厂的操作系统」，能协调加速数千个GPU间推理通信，分配LLM处理和生成阶段到不同GPU，优化GPU资源利用 [41][42] - Dynamo能让运行Llama模型的AI工厂在Hopper架构上性能和收入双双翻倍，在GB200 NVL72集群上运行DeepSeek - R1模型时，每个GPU生成token数量提升超30倍，还能动态分配GPU、卸载推理数据降低成本 [42] - Dynamo完全开源，支持PyTorch、SGLang、NVIDIA TensorRT - LLM和vLLM [43] 分组8：性能对比与效益 - 新的Blackwell架构比Hopper强，能耗固定时性能提升25倍，推理模型上高40倍，用MVLink 8技术加速，引入4位浮点数优化，能效高的架构对未来数据中心重要 [44] - Blackwell扩展到MVLink 72加上Dynamo软件效果更好，能适应不同工作负载，老黄认为大型项目投资最新技术如Blackwell可避免落后，买得越多赚得越多 [45][46] 分组9：通用机器人模型 - 预计本世纪末世界劳动力短缺超5000万，通用机器人时代到来，具身智能遵循三大Scaling Law，数据短缺问题可由英伟达Omniverse和Cosmos解决 [48][49] - 官宣世界首个开源、完全可定制的通用人形机器人模型GROOT N1，采用「双系统架构」，慢思考系统推理规划行动，快思考系统转化为精确动作，可执行多步骤任务 [50][51][52] - 与DeepMind、迪士尼研究开发下一代开源的Newton物理引擎，让机器人精确处理复杂任务，以星球大战BDX机器人为灵感的Blue上台互动，老黄预言机器人领域将成最大产业 [54][55][56]