英伟达Vera Rubin AI系统架构与性能 - 公司下一代机架级AI数据中心系统Vera Rubin已开始量产,计划于今年晚些时候发货[1][4] - 该系统旨在解决当前AI建设面临的最大瓶颈,其每瓦性能预计将达到Blackwell的约10倍[2] - 一个Rubin Pod包含16个机架,总计1,152个GPU,组件数量比Grace Blackwell多约100,000个,能耗约为其两倍,但可提供远超上代的算力[12] - 系统生成token的数量呈指数级高于上一代[12] 系统设计与核心组件 - Vera Rubin系统包含约130万个组件,涉及超过80家不同的供应商,遍布20多个国家[3] - 系统核心是Vera CPU,其每瓦性能约为前代Grace CPU的两倍[13] - Rubin GPU可提供约50 petaflops的AI性能,性能约为前代的2.5倍[13] - 每个Vera Rubin超级芯片包含1个Vera CPU和2个Rubin GPU,由约17,000个组件构成[14] - 每个Rubin GPU顶部和底部配有八堆最新的高带宽内存HBM4,由SK海力士和三星等公司供应[16] 散热与能效创新 - Vera Rubin是公司首个100%采用液冷的系统,计算托盘无软管、电缆或风扇[19] - 采用液冷系统实际上可以消耗更少的水,主要原因是减少了对蒸发冷却技术的依赖,并使用闭环系统[21] - 每个机架的总功耗约为220千瓦,是前代的两倍,因此公司重新设计了供电系统[21] - 系统效率的关键在于每个GPU能多快地同时访问其他GPU的内存和处理器,这通过公司的NVLink技术实现[22] 互连与网络技术 - NVLink交换芯片负责将所有GPU和CPU连接起来,使其作为一个整体运行,线速从每秒1.8TB提升至每秒3.6TB[22] - 9个NVLink交换托盘位于计算托盘之间,以每秒260TB的惊人速度连接所有72个GPU并传输数据[23] - 系统通过背面的NVLink脊柱连接,该脊柱包含5,000根铜缆,总长度达两英里[24] - 系统还包含用于存储和安全的BlueField DPU,以及最初由Mellanox构建的对外连接ConnectX-9网络控制器,公司于2020年以近70亿美元收购了Mellanox[24] 供应链与生产制造 - 公司创建了标准参考设计,以向整个生态系统开放,涉及众多供应商,例如电源架来自MegMeet、LiteOn或Flex,机箱来自富士康或Interplex[10] - 公司高度关注供应链,提供详细预测以确保供应能力,并认为目前状况良好[17] - 公司参与了制造业回流美国的趋势,计划到2029年在美国制造高达5,000亿美元的AI基础设施,包括在台积电新建的亚利桑那州工厂生产Blackwell芯片[30] - 组装工作在美国、台湾等地进行,并在墨西哥的一家大型新富士康工厂进行[30] 成本、定价与客户需求 - 尽管Vera Rubin复杂性降低,但客户前期成本更高,分析师估计其价格将比Grace Blackwell上涨约25%,每机架价格从约300-320万美元升至350-400万美元[27] - 与Blackwell相比,Rubin的每token成本降低了约10倍,客户最关注的是每瓦功耗或每消耗单位功率所能获得的token数量这一等式[28] - 在如此复杂的供应链中,定价受到需求影响,不同组件价格确实受到影响[29] - 客户需求依然强劲,公司每周生产数千个机架,产品已被预订[12] - 公司鼓励客户按年度节奏购买,因为每一代架构都将持续实现跨越式发展[31] 竞争格局与行业趋势 - AMD预计将在今年晚些时候推出其首个机架级系统Helios,这将带来重大竞争,客户既需要更多产能,也希望有可行的第二来源[32] - 主要云客户如AWS、谷歌、亚马逊、微软和Meta都在开发自己的AI芯片,但仍选择持续与公司合作,这证明了公司平台的强大[34][35] - 公司展示了Rubin之后的下一个重大机架架构飞跃:Kyber原型,包含288个GPU,数量是Vera Rubin的4倍,但重量仅增加约50%,这通过减少大量线缆实现[35] - 下一代系统Vera Rubin Ultra将采用Kyber机架设计,预计于2027年发货,目标是减少连接点、降低故障率、提高集成度,从而提升速度并降低总拥有成本[36]
Deconstructing Nvidia's Vera Rubin — The Successor To Blackwell That's 10x More Efficient