英伟达首颗推理芯片，突然发布

产品架构与设计理念 - NVIDIA推出名为Rubin CPX的全新GPU，标志着产品范式转变，采用将大型语言模型（LLM）的预填充（上下文）和解码（生成）两个阶段拆分到不同优化架构的策略 [2] - 在NVL144机架中，除了配备2026个带HBM的Rubin GPU外，还添加了多个配备GDDR7显存的Rubin CPX GPU作为协处理器，以应对计算密集型与内存密集型任务的分化 [2] - Rubin CPX采用经济高效的单片芯片设计，基于Rubin架构构建，配备强大的NVFP4计算资源，专为海量上下文AI处理而优化 [10] 产品性能规格 - Rubin CX提供高达30 PFLOPS的NVFP4计算性能，并配备128GB GDDR7显存，其指数运算能力是GB300的三倍 [4][10] - 为应对视频工作负载，该GPU集成了四个NVENC/NVDEC引擎，将视频解码器、编码器及长上下文推理处理集成在单芯片中 [4][10] - 与NVIDIA GB300 NVL72系统相比，Rubin CPX提供了3倍更快的注意力机制，提升了AI模型处理更长上下文序列的能力 [11] 系统平台与集成方案 - Vera Rubin NVL144 CPX平台集成Rubin CPX GPU与Vera Arm CPU，提供每秒8百亿亿次浮点运算的AI计算能力 [8] - 该平台在单个机架中提供100TB的快速内存和每秒1.7PB的内存带宽，其AI性能比GB300 NVL72系统高出7.5倍 [8] - 每个计算托盘配备八个NVIDIA ConnectX-9网卡，网络吞吐量可达12.8Tbps，相当于当前AI集群中常见的Spectrum-4 SN5610交换机的四倍吞吐量 [5] 应用场景与价值主张 - Rubin CPX专为处理数百万token的长上下文而设计，旨在使AI编码助手从简单代码生成工具转变为能理解和优化大型软件项目的复杂系统 [8][10] - 在处理视频内容时，模型可能需要处理一小时内容中多达100万个token，该GPU为此类长格式应用（如视频搜索和生成）提供突破性功能 [10] - NVIDIA声称，Vera Rubin NVL144 CPX平台可助力企业实现前所未有的规模盈利，每投资1亿美元即可获得50亿美元的token收益 [11] 上市时间与市场定位 - 采用多项未来技术的NVIDIA Rubin NVL144 CPX机架系统，目标上市时间为2026年底 [7] - NVIDIA利用其强大技术打造大型单片GDDR GPU，而AMD和英特尔在此领域投入较少，更关注容量细分市场 [7]