BlueField DPUs - 财报，业绩电话会，研报，新闻

BlueField DPUs

搜索文档

Deconstructing Nvidia's Vera Rubin — The Successor To Blackwell That's 10x More Efficient

Youtube· 2026-02-25 23:11

英伟达Vera Rubin AI系统架构与性能 - 公司下一代机架级AI数据中心系统Vera Rubin已开始量产，计划于今年晚些时候发货[1][4] - 该系统旨在解决当前AI建设面临的最大瓶颈，其每瓦性能预计将达到Blackwell的约10倍[2] - 一个Rubin Pod包含16个机架，总计1,152个GPU，组件数量比Grace Blackwell多约100,000个，能耗约为其两倍，但可提供远超上代的算力[12] - 系统生成token的数量呈指数级高于上一代[12] 系统设计与核心组件 - Vera Rubin系统包含约130万个组件，涉及超过80家不同的供应商，遍布20多个国家[3] - 系统核心是Vera CPU，其每瓦性能约为前代Grace CPU的两倍[13] - Rubin GPU可提供约50 petaflops的AI性能，性能约为前代的2.5倍[13] - 每个Vera Rubin超级芯片包含1个Vera CPU和2个Rubin GPU，由约17,000个组件构成[14] - 每个Rubin GPU顶部和底部配有八堆最新的高带宽内存HBM4，由SK海力士和三星等公司供应[16] 散热与能效创新 - Vera Rubin是公司首个100%采用液冷的系统，计算托盘无软管、电缆或风扇[19] - 采用液冷系统实际上可以消耗更少的水，主要原因是减少了对蒸发冷却技术的依赖，并使用闭环系统[21] - 每个机架的总功耗约为220千瓦，是前代的两倍，因此公司重新设计了供电系统[21] - 系统效率的关键在于每个GPU能多快地同时访问其他GPU的内存和处理器，这通过公司的NVLink技术实现[22] 互连与网络技术 - NVLink交换芯片负责将所有GPU和CPU连接起来，使其作为一个整体运行，线速从每秒1.8TB提升至每秒3.6TB[22] - 9个NVLink交换托盘位于计算托盘之间，以每秒260TB的惊人速度连接所有72个GPU并传输数据[23] - 系统通过背面的NVLink脊柱连接，该脊柱包含5,000根铜缆，总长度达两英里[24] - 系统还包含用于存储和安全的BlueField DPU，以及最初由Mellanox构建的对外连接ConnectX-9网络控制器，公司于2020年以近70亿美元收购了Mellanox[24] 供应链与生产制造 - 公司创建了标准参考设计，以向整个生态系统开放，涉及众多供应商，例如电源架来自MegMeet、LiteOn或Flex，机箱来自富士康或Interplex[10] - 公司高度关注供应链，提供详细预测以确保供应能力，并认为目前状况良好[17] - 公司参与了制造业回流美国的趋势，计划到2029年在美国制造高达5,000亿美元的AI基础设施，包括在台积电新建的亚利桑那州工厂生产Blackwell芯片[30] - 组装工作在美国、台湾等地进行，并在墨西哥的一家大型新富士康工厂进行[30] 成本、定价与客户需求 - 尽管Vera Rubin复杂性降低，但客户前期成本更高，分析师估计其价格将比Grace Blackwell上涨约25%，每机架价格从约300-320万美元升至350-400万美元[27] - 与Blackwell相比，Rubin的每token成本降低了约10倍，客户最关注的是每瓦功耗或每消耗单位功率所能获得的token数量这一等式[28] - 在如此复杂的供应链中，定价受到需求影响，不同组件价格确实受到影响[29] - 客户需求依然强劲，公司每周生产数千个机架，产品已被预订[12] - 公司鼓励客户按年度节奏购买，因为每一代架构都将持续实现跨越式发展[31] 竞争格局与行业趋势 - AMD预计将在今年晚些时候推出其首个机架级系统Helios，这将带来重大竞争，客户既需要更多产能，也希望有可行的第二来源[32] - 主要云客户如AWS、谷歌、亚马逊、微软和Meta都在开发自己的AI芯片，但仍选择持续与公司合作，这证明了公司平台的强大[34][35] - 公司展示了Rubin之后的下一个重大机架架构飞跃：Kyber原型，包含288个GPU，数量是Vera Rubin的4倍，但重量仅增加约50%，这通过减少大量线缆实现[35] - 下一代系统Vera Rubin Ultra将采用Kyber机架设计，预计于2027年发货，目标是减少连接点、降低故障率、提高集成度，从而提升速度并降低总拥有成本[36]

NVIDIA (NasdaqGS:NVDA) Conference Transcript

2026-02-03 15:02

纪要涉及的行业或公司 * 公司：英伟达 (NVIDIA)，专注于为人工智能工厂构建超级计算机和网络基础设施 [1] * 行业：人工智能计算、数据中心网络、硅光子学、共封装光学 (CPO) 技术 [3] 核心观点和论据 1. AI超级计算机的架构与四大网络基础设施 * 构建AI超级计算机需要整合四大网络基础设施：Scale-Up (纵向扩展)、Scale-Out (横向扩展)、Context Memory Storage (上下文内存存储) 和 Scale Across (跨域扩展) [4][5][6] * **Scale-Up**：通过NVLink连接H100 GPU，形成机架规模的单一虚拟GPU，未来可连接数百个H100 GPU [4] * **Scale-Out**：通过Spectrum-X以太网连接数十万个GPU，运行单一AI工作负载，其核心使命是消除抖动，确保所有GPU完全同步 [5][10] * **Context Memory Storage**：利用BlueField DPU在AI Pod内构建新的存储层级，服务于推理工作负载的存储需求 [6] * **Scale Across**：基于Spectrum-X以太网，连接远程数据中心，形成支持千兆规模AI工厂的单一计算引擎 [7] 2. Spectrum-X以太网：专为AI设计的网络 * 现有以太网技术（企业级、超大规模数据中心级、服务提供商级）均非为AI分布式计算设计 [8][9] * Spectrum-X以太网采用端到端基础设施设计，专注于RDMA和消除抖动，以实现GPU间的高效、同步数据交换 [10] * 通过SuperNIC控制注入速率以避免热点，交换机使用细粒度自适应路由为每个数据包选择最佳路径，共同消除抖动 [11] * **性能提升**：通过消除抖动，将专家调度性能提升3倍；在训练中实现1.4倍的性能提升，并提供可预测的性能 [12] 3. 共封装光学 (CPO) 技术的优势与创新 * **驱动因素**：随着带宽代际翻倍，用于横向扩展网络的光连接功耗持续增加，可消耗近10%的计算资源，降低功耗对提升数据中心计算能力至关重要 [13][14] * **技术原理**：将传统上位于交换机外部光模块中的光引擎，移至与交换机ASIC相同的封装内 [15] * **核心优势**： * **功耗**：将横向扩展基础设施的功耗降低5倍 [18] * **可靠性**：通过将光引擎封装在液冷盒内、避免人为接触，将可靠性提升13倍，信号完整性提升64倍 [20][21] * **组件**：减少所需激光器和组件数量，无需使用可插拔光模块 [18][21] * **产品规格**： * **Spectrum-X以太网光子学**：提供102 Tb/s交换机（120个800Gb端口或512个200Gb端口）和409 Tb/s大型交换机（512个800Gb端口或2,000个200Gb端口）[22] * **Quantum-X InfiniBand光子学**：提供115 Tb/s全液冷交换机，支持144个800Gb端口 [21][22] * **技术创新**：与台积电合作开发共封装工艺；采用微阵列调制器构建支持大基数交换机的小型光引擎；设计高功率激光器以减少激光器数量；改进光纤对准和连接技术 [30][31][32][33] 4. CPO部署计划与客户案例 * **部署时间表**：CPO部署已于今年开始 [26] * **InfiniBand CPO**：CoreWeave、Lambda和德克萨斯高级计算中心将在今年上半年首批部署Quantum-2 InfiniBand CPO [26] * **以太网 CPO**：Spectrum-X以太网CPO将于今年下半年开始发货 [26] 5. CPO与可插拔光模块的对比及客户关切 * **灵活性担忧**：可插拔光模块支持按端口选择多模/单模等不同技术，CPO交换机需预先确定连接技术 [34][35][36] * **公司回应**：NVIDIA的CPO技术选择已能覆盖数据中心内部乃至园区楼宇间的全部距离，无需多种光模块，在降低功耗的同时提供了所需的连接能力 [37][38][42] * **可靠性担忧**：可插拔光模块因人为接触、灰尘等需要不时更换，可能引发对CPO可靠性的顾虑 [27][28][39] * **公司回应**：CPO将光引擎内置封装、液冷、全系统测试且避免人为接触，其可靠性堪比不带光模块的可插拔交换机，解决了可靠性问题 [29][40][41] * **成本模型担忧**：可插拔光模块支持“按需付费”模式，CPO可能提高前期采购成本 [49] * **公司回应**：AI超级计算机的拓扑结构经过优化，交换机完全利用，通常需要一次性购买全部光模块。采用CPO降低了基础设施的总成本（节省资本支出和运营支出），并提高了可靠性和正常运行时间，是双赢局面 [51][52][53] 6. 未来创新方向与生态系统 * **创新节奏**：为支持新一代AI工作负载，数据中心设计、GPU、交换机、超级网卡等技术已进入年度更新节奏 [54] * **未来重点**：支持更大基数的交换机；提高光网络密度和横向扩展基础设施的带宽容量；优化整个机架和数据中心的密度与液冷设计 [54][55] * **液冷兼容性**：网络交换机的液冷机架设计与计算服务器（如DGX）使用的机架设计相同，便于数据中心构建、安装和管理 [56] * **合作伙伴与灵活性**：与大型制造商合作，为不同云服务提供商和客户设计交换机；Spectrum以太网支持多种操作系统（如Cumulus、Nexus），具备全面灵活性 [57][58] 其他重要内容 * **术语澄清**：在问答中，演讲者使用了“Coherent Edge Optics”来指代其CPO技术，这与之前使用的“co-package optics”含义相同 [44][53][54] * **未回答问题处理**：由于时间有限，大量未现场回答的问题将通过PDF形式在后续提供给参会者 [45][59]

英伟达(US:NVDA)

AI supercomputer

Distributed computing

Distributed computing