Nvidia-NVIDIA (NasdaqGS:NVDA) FY Conference Transcript

纪要涉及的行业或公司 * 公司：英伟达 [1] * 行业：科技、媒体和电信，特别是人工智能、高性能计算、数据中心网络 [1] 核心观点和论据 1. 网络业务强劲增长，由AI工厂整体设计驱动 * 英伟达网络业务收入达149亿美元，同比增长199% [4] * 增长源于公司将数据中心视为一个单一计算单元（AI工厂）进行整体设计，这需要大量的网络基础设施来支撑 [5][6] * 增长覆盖了所有网络基础设施领域：用于纵向扩展的NVLink、用于横向扩展的InfiniBand和Spectrum-X以太网、用于存储和接入的BlueField DPU [6][7] 2. 收购Mellanox是战略转型的关键，旨在成为计算公司 * 收购源于英伟达创始人黄仁勋的愿景，即公司需要从设备或ASIC公司转变为计算公司 [12] * Mellanox专注于为分布式计算负载构建网络基础设施，其技术与英伟达在高性能计算和AI领域的需求高度契合 [14] * 整合过程顺利，两家公司文化相似，团队协作如同一体 [13][15] 3. 产品设计采用垂直整合、水平销售模式，保持开放性 * 为构建作为单一计算单元的AI工厂，英伟达对软件、硬件、计算ASIC、网络ASIC和存储等元素进行极致的协同设计，以确保系统平衡 [21][22] * 设计是垂直整合的，但销售是水平开放的。客户可以单独采用GPU、CPU、网络或NVLink等组件，并与自己的设计混合搭配 [24] * NVLink Fusion的推出证明了其开放性，它允许客户将NVLink作为独立元素使用，即使他们拥有自己的CPU或GPU [25][26] * 公司已宣布与合作伙伴和客户共同构建NVLink Fusion生态系统 [27] 4. Spectrum-X以太网是专为AI设计的零抖动网络基础设施 * 开发Spectrum-X是为了满足已投资以太网的客户需求，为其提供适用于AI负载的横向扩展选项 [33] * 传统以太网并非为分布式计算负载设计，不解决抖动问题，而抖动是AI训练和推理的最大问题之一 [35][40] * Spectrum-X的创新在于：交换机无条件地跨整个基础设施分发流量（包喷洒），这必然导致数据包乱序；通过智能网卡将乱序数据按正确顺序放入GPU内存 [44][48] * 该方案需要交换机（分发）和智能网卡（排序）协同工作，是一个基础设施解决方案，而非单一设备 [48] 5. Spectrum-X支持多种路由协议，并优化多租户环境 * Spectrum-X不仅支持自适应的RDMA协议，还支持MRC等其他路由协议，并可支持大客户自定义的协议 [57][59] * 零抖动的特性使得多租户环境（如AI云）中，一个工作负载不会因网络拥堵而影响另一个工作负载的性能，解决了“吵闹邻居”问题 [70][72] 6. 推理负载催生新的存储基础设施，网络方案在训练和推理中具有通用性 * 训练和推理都是分布式计算负载，都需要零抖动网络 [70] * 随着智能体AI的发展，推理需要更大的KV缓存，并非所有数据都能存储在本地GPU服务器中 [73] * 传统网络存储为数据可靠性设计，成本高昂。英伟达利用BlueField等技术，为推理的KV缓存创建了新的、更高效的存储基础设施 [74][75] 7. 对CPO（共封装光学）的看法：根据距离选择铜缆或光缆，CPO旨在降低光互连功耗 * 连接方式选择取决于距离：短距离用铜缆（零功耗、成本低、可靠），长距离必须用光缆 [76][80] * 当前AI工厂的扩展受限于功耗，而光互连在横向扩展基础设施中的功耗可接近计算容量的10%，这是一个很大的数字 [82][84] * 共封装光学是一项旨在最小化光网络功耗的技术，因此英伟达投资CPO。其应用场景（横向扩展、纵向扩展）取决于实际距离需求 [84][85] 其他重要内容 * 会议背景：第54届年度TMT大会第二天 [1] * 讨论涉及技术细节：包括但不限于RDMA、RoCE、自适应路由、流控等网络协议和技术概念 [53][57] * 发言人风格：以工程师视角，用类比（如汽车与飞机）解释复杂技术选择 [76]