Workflow
英伟达祭出下一代GPU,狂飙百万token巨兽,投1亿爆赚50亿
英伟达英伟达(US:NVDA) 36氪·2025-09-11 10:45

产品发布与定位 - 英伟达发布专为海量上下文AI设计的CUDA GPU Rubin CPX 实现百万Token级一次性推理 [1][3] - Rubin CPX开创全新处理器类别CPX 基于Rubin架构构建 为首款针对大规模上下文推理的专用GPU [1][3][4] 性能表现 - 单机架提供8 EFLOPS NVFP4计算力 配备100TB高速内存与1.7 PB/s内存带宽 [3][16] - 相比GB300 NVL72系统 注意力机制处理能力提升3倍 [3][19] - 单个GPU提供30 petaflops NVFP4计算能力 配备128GB GDDR7显存 [3][18] - Vera Rubin NVL144平台性能达GB300 NVL72系统的7.5倍 [3] 技术架构创新 - 采用解耦式推理架构 将上下文阶段(计算受限)与生成阶段(内存带宽受限)独立处理 [5][6] - 依托NVIDIA Dynamo作为编排层 协调低时延KV缓存传输与大模型感知路由 [8] - 与Vera CPU及Rubin GPU协同 形成完整高性能解耦式服务方案 [4][12] 应用场景突破 - 支持多步推理、持久化记忆与长时程上下文 适用于软件开发、视频生成及深度研究领域 [4] - 显著提升AI编码能力 从代码生成升级为可优化大规模软件项目的复杂系统 [4] - 满足长视频与研究类应用在百万Token级别保持一致性与记忆的需求 [4][17] 投资回报与经济性 - 每投入1亿美元最高可带来50亿美元Token收入 [3] - 规模化场景下可实现30-50倍投资回报率(ROI) [12] 平台配置与部署 - Vera Rubin NVL144 CPX平台集成144块Rubin CPX GPU、144块Rubin GPU及36颗Vera CPU [16] - 支持多种形态配置 包括与Quantum-X800 InfiniBand或Spectrum-X以太网平台结合使用 [20] - 基于MGX架构实现机架级部署 [15] 生态支持与可用性 - 获得完整NVIDIA AI全栈支持 包括AI Enterprise软件平台与NIM微服务 [21][24] - 兼容NVIDIA Nemotron多模态模型家族 依托600万开发者社区及近6000个CUDA应用 [24] - 产品预计2026年底上市 [22]