英伟达下一代GPU登场,Rubin CPX一次推理数百万Token,网友:这是头野兽
英伟达Rubin CPX GPU产品发布 - 公司宣布推出专为超过100万token长上下文推理设计的新GPU Rubin CPX [1] - 该GPU旨在提升软件开发、视频生成等长上下文任务的性能 [2] - 新产品将与NVIDIA Vera CPU和Rubin GPU共同组成Vera Rubin NVL144 CPX平台 [5] Vera Rubin NVL144 CPX平台技术规格 - 集成式MGX系统在单机架内可提供8 exaflops AI算力 [5] - 平台AI性能是NVIDIA GB300 NVL72系统的7.5倍 [5] - 系统配备100TB高速内存和1.7 PB/s内存带宽 [5] Rubin CPX技术特性与突破 - GPU基于Rubin架构采用单片设计,内置NVFP4计算资源并针对AI推理优化 [14] - 采用NVFP4精度可提供高达30 petaflops算力,并配备128GB GDDR7内存 [14] - 与GB300 NVL72系统相比,注意力处理能力提升3倍 [14] 行业应用与合作伙伴评价 - Cursor CEO表示该技术将实现极速代码生成和深度开发者洞察,重塑软件创作方式 [16] - Runway CEO认为性能飞跃将为长上下文和智能体驱动创作流程提供支持 [16] - 新技术预计将于2026年底上市 [17] 英伟达AI基础设施技术框架 - 公司SMART框架强调采用全栈解耦式基础设施,实现计算与内存资源高效调配 [11] - 推理过程分为计算密集的上下文处理与受内存带宽限制的内容生成两个阶段 [11] - 解耦式推理架构使两个阶段能独立处理,提升系统吞吐量并降低延迟 [11]