Quantum InfiniBand
搜索文档
英伟达(NVDA.US)的又一场“阳谋”
智通财经网· 2025-10-19 13:49
文章核心观点 - AI时代数据中心算力体系正被网络重新定义,GPU间通信效率成为关键约束 [1] - 英伟达推出专为AI优化的Spectrum-X以太网解决方案,并获得Meta和Oracle两大科技巨头采用,被视为以太网向AI专用互连迈出的重要一步 [1] - 英伟达通过“GPU + SuperNIC + Switch + DPU”的垂直整合战略,试图在开放以太网生态中建立新的控制力 [12] - 行业竞争格局面临重塑,传统网络芯片厂商、设备供应商及互连初创企业均受到Spectrum-X战略的冲击 [11][12][13] - 英伟达构建了InfiniBand(封闭高性能)与Spectrum-X(开放以太网)双轨系统,以维持其在AI计算网络层的主导权 [21] AI网络的重要性与挑战 - 生成式AI时代,大模型训练需数千、数万张GPU并行协同,网络延迟与带宽瓶颈成为训练效率关键约束 [1] - AI训练产生少量但极庞大的“象流”,易形成网络热点造成严重拥塞 [5] - AI网络设计目标为确保极端情况下不拖后腿,需解决尾延迟问题,对延迟、丢包率、流量调度等要求远超传统以太网 [1][2] Spectrum-X 技术特性 - 打造无损以太网:通过RoCE、PFC+DDP技术及与SuperNIC联动,实现端到端无损传输,使以太网具备接近InfiniBand的传输确定性 [2] - 自适应路由与分包调度:采用包级自适应路由与分包喷射技术,动态选择最优路径,打破传统以太网静态哈希路由局限,保持AI集群线性扩展能力 [5] - 亚微秒级拥塞控制:通过硬件级带内遥测实时上报网络状态,SuperNIC执行流量节流,实现亚微秒级反馈闭环,数据吞吐量达95%,远超传统大规模以太网的60% [7] - 性能隔离与安全:通过共享缓存架构防止“吵闹邻居”任务影响,并配合BlueField-3 DPU提供数据在途与静态安全加密,使AI云具备类似私有集群的安全隔离能力 [8] 巨头采用策略差异 - Meta侧重开放可编排网络平台,将Spectrum系列与FBOSS结合,在Minipack3N等开源交换机上实现落地,支持面向数十亿用户的生成式AI服务 [8] - Oracle将Vera Rubin作为加速器架构,以Spectrum-X为互联骨干,聚合分散数据中心为统一可编排超算平台,为企业客户提供端到端训练与推理服务,称为“Giga-Scale AI 工厂” [9] 对产业链竞争格局的影响 - 对以太网芯片厂商构成挑战:如Broadcom(Trident/Tomahawk系列)、Marvell(Teralynx、Prestera),Spectrum-X的AI优化特性内嵌至GPU/DPU协同体系,冲击其高端芯片价值 [13] - 威胁传统网络设备供应商:如Cisco、Arista Networks、Juniper Networks,在Spectrum-X架构下,客户在AI工厂等极端性能环境中可能不再依赖其传统优化方案 [13][14] - 压缩互连初创企业市场空间:如Astera Labs、Cornelis Networks等为AMD、Intel提供替代方案的厂商,其开放Fabric难以兼容绑定NVIDIA的集群,市场空间被压缩 [15][16][17] InfiniBand 的技术优势与定位 - InfiniBand设计追求极致确定性与零损传输,具备无损网络、超低延迟(微秒级)、原生RDMA与网络内计算三大特性,成为AI训练时代的通信主干 [17] - 英伟达Quantum-2 InfiniBand为第七代产品,每个端口提供400 Gb/s带宽,端口密度提升三倍,可连接超一百万个节点,引入第三代SHARP技术使网络成为“协处理器”,AI训练加速能力较上一代提升32倍 [18] 行业标准竞争 - 以太网阵营通过超以太网联盟推动新一代开放标准,希望重建InfiniBand级性能,英伟达推出Spectrum-X意在将以太网生态的话语权掌握在自己手中 [19]
英伟达的又一场“阳谋”
半导体行业观察· 2025-10-19 10:27
同时也反映出英伟达正在加速向开放以太网生态渗透,绑定云巨头与企业客户。英伟达已经凭借 InfiniBand控制了封闭的高端网络,如今又正在"开放"的以太网生态中设下第二道围墙。 S p e c t r u m -X,以太网AI化 过去几十年,以太网是数据中心采用最为广泛的网络。但在AI为核心的时代,AI 的核心挑战不在单 个节点的算力,而在分布式架构下的协同效率。训练一个基础模型(如 GPT、BERT、DALL-E), 需要跨节点同步海量梯度参数。整个训练过程的速度,取决于最慢的那一个节点——这正是 "尾延迟 (Tail Latency)" 问题的根源。 因此,AI 网络的设计目标不是"平均性能",而是要确保极端情况下也不拖后腿。这对网络延迟、丢 包率、流量调度、拥塞控制乃至缓存架构,都提出了远超传统以太网的要求。为此,英伟达推出了 Spectrum-X,首个专为AI优化的以太网解决方案。 公众号记得加星标⭐️,第一时间看推送不会错过。 过去二十年,数据中心的性能进步主要依赖于计算芯片——CPU、GPU、FPGA 不断演进,但进入生 成式 AI 时代后,整个算力体系开始被网络重新定义。在大模型训练中,GPU ...
Nvidia(NVDA) - 2025 Q4 - Earnings Call Transcript
2025-03-05 00:26
财务数据和关键指标变化 - Q4营收393亿美元,环比增长12%,同比增长78%,高于375亿美元的预期 [8] - 2025财年营收1305亿美元,较上一年增长114% [9] - GAAP毛利率为73%,非GAAP毛利率为73.5%,随着Blackwell架构首批交付,毛利率如预期环比下降 [38] - Q4向股东返还81亿美元,形式为股票回购和现金股息 [40] - 预计第一季度总营收430亿美元,上下浮动2% [40] - 预计GAAP和非GAAP毛利率分别为70.6%和71%,上下浮动50个基点 [41] - 预计GAAP和非GAAP运营费用分别约为52亿美元和36亿美元,预计2026财年全年运营费用将增长至35亿美元左右 [42] - 预计GAAP和非GAAP其他收入费用为约4亿美元收入,不包括非上市和公开持有的股权证券的损益 [43] - 预计GAAP和非GAAP税率为17%,上下浮动1%,不包括任何离散项目 [43] 各条业务线数据和关键指标变化 数据中心业务 - 2025财年数据中心营收1152亿美元,较上一年翻倍 [9] - Q4数据中心营收356亿美元创纪录,环比增长16%,同比增长93% [10] - Q4 Blackwell销售额超预期,实现110亿美元营收 [10] - Q4数据中心计算营收环比增长18%,同比增长超两倍 [11] - 大型云服务提供商(CSP)约占Q4数据中心营收的一半,销售额同比增长近两倍 [18] - 消费者互联网营收同比增长3倍 [20] - 企业营收同比增长近两倍 [22] - 汽车垂直领域营收本财年预计增长至约50亿美元 [25] 网络业务 - 网络营收环比下降3%,与GPU计算系统配套的网络业务占比超75% [28] 游戏和AR PC业务 - Q4游戏营收25亿美元,环比下降22%,同比下降11%,全年营收114亿美元,同比增长9% [31] 专业可视化业务 - Q4营收5.11亿美元,环比增长5%,同比增长10%,全年营收19亿美元,同比增长21% [34] 汽车业务 - Q4营收创纪录达5.7亿美元,环比增长27%,同比增长103%,全年营收17亿美元,同比增长55% [35] 各个市场数据和关键指标变化 - 数据中心营收在美国的环比增长最强劲,受Blackwell的初始推广推动 [27] - 中国数据中心销售额占总数据中心营收的比例仍远低于出口管制实施前的水平,若无法规变化,预计将维持在当前比例,中国数据中心解决方案市场竞争激烈 [28] 公司战略和发展方向和行业竞争 - 公司设计的Blackwell架构可应对从预训练、后训练到推理的整个AI市场,其可编程架构能加速所有AI模型和超4400个应用程序,确保在快速发展的市场中大型基础设施投资不会过时 [17] - 公司致力于在过去两年内将推理成本降低200%,为客户提供最低的总拥有成本(TCO)和最高的投资回报率(ROI),并通过全栈优化和庞大的开发者生态系统持续改善客户的经济效益 [18] - 公司提供适用于不同场景的网络解决方案,如用于计算扩展的NVLink交换系统、用于高性能计算超级计算机的Quantum InfiniBand和用于以太网环境的SpectrumX,SpectrumX已取得巨大成功 [29][30] - 公司推出新的GeForce RTX 50系列桌面和笔记本GPU,融合AI和图形技术,重新定义视觉计算,还宣布推出搭载新NVIDIA Max - Q技术的GeForce Blackwell笔记本GPU,可延长电池续航时间 [32][34] - 公司推出NVIDIA Llama Numitron模型家族节点,帮助开发者在多个应用中创建和部署AI代理,领先的AI代理平台提供商已开始使用这些新模型 [23] - 公司宣布NVIDIA Cosmos World基础模型平台,将推动物理AI在机器人领域的发展,已有多家公司率先采用该平台 [26] 管理层对经营环境和未来前景的评论 - AI已成为主流,融入到各个应用中,未来几乎所有软件和服务都将基于机器学习,计算机将向加速计算和AI方向发展,公司认为目前正处于这一新时代的开端 [97][101][102] - 公司对Blackwell的需求前景非常乐观,认为其在推理AI方面表现卓越,能够满足不断增长的计算需求 [134] - 随着推理AI和推理时间扩展时代的到来,公司预计2025年将实现强劲增长,未来数据中心将把大部分资本支出用于加速计算和AI,每个公司都将拥有自己的AI工厂 [139] 其他重要信息 - 公司将参加3月3日在波士顿举行的TD Cowen医疗保健会议和3月5日在旧金山举行的摩根士丹利科技、媒体和电信会议 [44] - 公司年度GTC会议将于3月17日在加利福尼亚州圣何塞举行,Jensen将在3月18日发表主题演讲,并于3月19日为金融分析师举办问答环节 [45] - 公司2026财年第一季度财报电话会议定于2025年5月28日举行 [45] 总结问答环节所有的提问和回答 问题1: 测试时间计算和强化学习使训练和推理界限模糊,对推理专用集群的未来潜力以及对公司和客户的整体影响 - 现在存在多种扩展定律,包括预训练、后训练和推理时间计算,推理所需的计算量已远超初始阶段,且未来增长潜力巨大 [49][50][52] - 公司的架构通用性强,能运行所有模型,在训练和推理方面都表现出色,Blackwell架构针对推理模型进行了优化,具有更高的吞吐量和更低的成本,且公司架构具有可配置性和易用性 [54][55][56] 问题2: GV200在CES之后的推广情况,系统层面是否仍存在瓶颈,以及对NVLink 72平台的热情是否依旧 - 公司对NVLink 72平台的热情更高,因为在CES之后已交付了更多产品,目前有350家工厂生产构成Blackwell机架的150万个组件,公司成功提升了Grace Blackwell的产量,上季度实现了110亿美元的营收,且多家公司的Grace Blackwell系统已上线 [59][60][61] 问题3: Q1是否为毛利率底部,以及公司对需求持续强劲的信心来源,DeepSeq等创新是否影响该观点 - 在Blackwell推广期间,毛利率将处于70%左右,随着其全面推广,公司有机会改善成本和毛利率,预计今年晚些时候将回升至75%左右 [65][66] - 公司对需求持续强劲有信心,因为数据中心的资本投资规模可观,未来大部分软件将基于机器学习,公司有来自顶级合作伙伴的预测和计划,且有众多创新型初创公司不断涌现,AI在企业、机器人等领域的应用才刚刚起步 [68][69][72] 问题4: 下一代Blackwell Ultra将于今年下半年推出,如何理解其需求动态,客户和供应链如何管理两代产品的同时推广,团队是否仍按计划执行 - Blackwell Ultra按年度节奏推出,尽管第一代Blackwell曾遇到小问题,但已完全恢复,目前生产已成功提升 [77] - 公司与合作伙伴和客户密切合作,为过渡做好准备,从Blackwell到Blackwell Ultra的系统架构相同,过渡相对容易,公司还已与合作伙伴就后续产品进行合作 [78][79][80] 问题5: 如何看待定制ASIC和商用GPU之间的平衡,客户是否计划构建同时使用GPU和ASIC的异构超级集群 - 公司的架构具有通用性,能优化多种类型的模型,从数据处理到推理的全流程表现出色,且可在多种环境中使用,是新公司的首选目标 [84][85][86] - 公司架构的性能和节奏快,每瓦性能是传统架构的2 - 8倍,能直接转化为更高的收入,且软件栈复杂,公司在部署方面具有优势 [86][87][92] 问题6: 美国市场增长强劲,能否弥补其他地区因法规限制带来的影响,以及如何在市场向美国转移的情况下保持高速增长,中国市场的动态如何 - 中国市场占比与Q4及之前季度大致相同,约为出口管制前的一半 [97] - AI已成为主流,融入到各个领域,未来所有软件和服务都将基于机器学习,目前正处于这一新时代的开端,AI技术有望覆盖更大比例的全球GDP,因此公司对增长前景充满信心 [97][101][102] 问题7: 企业业务在数据中心业务中是否同比增长两倍,是否比超大规模数据中心增长更快,超大规模数据中心的支出在内部和外部工作负载之间如何分配,随着新AI工作流和应用的出现,企业是否会成为更大的消费群体,这对公司的服务和生态系统发展有何影响 - 企业业务同比增长两倍,与大型CSPs的增长情况相似,两者都很重要,企业既通过CSPs使用公司产品,也自行构建相关基础设施 [108] - CSPs约占公司业务的一半,有内部和外部消费,公司与它们密切合作优化内部工作负载,公司基础设施具有通用性和较长的使用寿命,能降低总拥有成本 [109][110] - 从长期来看,企业市场规模将远大于CSPs市场,因为目前计算机行业未覆盖的主要是工业领域,企业需要使用代理AI提高员工生产力,同时物理系统需要物理AI,这两个领域才刚刚起步 [111][112][117] 问题8: 临近Hopper架构在2023年引发的生成式AI变革两周年,如何从替换周期的角度看待已部署的基础设施,以及GV300或Rubin周期是否会带来更新机会 - 由于CUDA的可编程性,旧架构如Voltas、Pascals和Amperes仍在使用,主要用于数据处理和数据策划等不太密集的工作负载,所有架构都兼容CUDA,可将不同工作负载分配到不同架构上,充分利用已安装的基础设施 [121][124][125] 问题9: 对毛利率在下半年回升至75%左右的信心来源,以及关税对半导体行业的影响 - 公司认为Blackwell系统在材料和配置方面有很大的改进空间,随着推广工作的完成,公司将着手改善毛利率,若能在短期内改善也会积极行动 [129][130] - 关税目前是未知因素,公司将等待美国政府的具体计划、时间、范围和金额等信息,并遵守相关出口管制和关税规定 [130][131]