Blackwell芯片部署的挑战与现状 - 英伟达首席执行官黄仁勋曾指出,新一代Blackwell AI芯片的复杂性导致客户从上一代芯片过渡将“充满挑战”,因为服务器机箱、系统架构、硬件配置和电源系统等所有方面都需要调整[2] - 对于OpenAI、Meta Platforms及其云服务合作伙伴等核心客户,推广Blackwell服务器(尤其是Grace Blackwell型号)的部署和大规模运维在去年大部分时间里是一个棘手问题,客户在收到上一代芯片后几周内即可部署,而Blackwell的部署则困难得多[2] - 英伟达目前已基本解决了阻碍主要客户快速大规模部署Blackwell芯片的技术难题,公司市值高达4.24万亿美元,业务未受严重影响[2] 部署困难带来的潜在影响与客户反应 - 如果未来新芯片持续面临类似部署难题,可能为谷歌等竞争对手创造机会,前提是竞争对手能帮助客户更快大规模部署芯片以支持尖端AI发展[3] - 部署问题可能导致无法实现大规模芯片部署的云服务提供商利润下滑,并减缓依赖这些芯片开发更先进AI模型的AI公司的研发进度[3] - OpenAI和Meta等客户无法按预期规模构建芯片集群,限制了其训练更大规模AI模型的能力,部分客户已私下向英伟达表达不满[3] - 为弥补客户损失,英伟达去年针对与Grace Blackwell芯片相关的问题提供了一些退款和折扣[3] 技术问题的根源与英伟达的回应 - 主要问题出在连接72颗Grace Blackwell芯片的服务器上,这种设计旨在提升芯片间通信速度并在单个系统内协同运行,但带来了复杂性[4] - 英伟达发言人表示,公司已于2024年解决了Grace Blackwell系统部署缓慢的问题,并称这些系统是“有史以来最先进的计算机”,需要“与客户进行联合工程开发”才能部署[4] - OpenAI基础设施负责人表示,与英伟达的合作“完全按计划进行”,正在利用所有可用的英伟达芯片进行模型训练和推理,这加速了研发迭代和产品发布[4] 英伟达的改进措施与产品迭代 - 英伟达从部署挑战中吸取教训,不仅优化了现有Grace Blackwell系统,还改进了基于即将发布的下一代Vera Rubin芯片的服务器[5] - 英伟达去年推出了性能更强大、稳定性超越第一代产品的Grace Blackwell芯片升级版(GB300),在散热、核心材料和连接器质量方面均有所改进[5] - Meta工程师发现新芯片显著降低了集群组装难度,包括OpenAI在内的一些客户已调整订单,转而订购升级后的产品[5] - 英伟达告诉投资者,其Blackwell系列芯片的大部分收入现在来自优化的Grace Blackwell服务器,并计划今年大量交付这些服务器[5] Blackwell芯片的设计目标与固有缺陷 - 英伟达开发Blackwell芯片的目标是帮助客户以远超以往AI芯片的规模和成本效益训练AI模型[7] - Blackwell系列的核心设计是将72颗Grace Blackwell芯片集成到一台服务器中,减少了不同服务器间的数据传输,释放了数据中心网络资源,并支持更大规模AI模型的训练[7] - 然而,高度集成大量芯片意味着单个芯片的故障可能引发连锁反应,导致由数千个芯片组成的整个集群崩溃或停滞,从最近的已保存节点重新启动中断的训练可能花费数千至数百万美元[7] 初期推出问题与客户应对 - 2024年夏季,芯片设计缺陷导致量产延迟并引发各种问题,在首批Blackwell芯片交付后,服务器机架频繁出现过热和连接故障[7] - 这迫使微软、亚马逊网络服务、谷歌和Meta等核心客户减少订单,转而选择上一代芯片[8] - 几家云服务提供商的员工认为,英伟达在相关硬件和软件尚未完全调整和准备就绪之前就向客户交付了芯片[8] - 但有前英伟达高管为这一策略辩护,称72芯片服务器所经历的成长阵痛表明公司愿意突破技术界限,而非采取保守管理方式[8] 部署延迟对云服务商的财务影响 - 去年芯片部署延迟导致OpenAI的部分云服务合作伙伴遭受损失,他们曾斥巨资购买Grace Blackwell芯片,希望快速上线收回成本,但云服务商只有在客户开始使用芯片后才能获得收入[9] - 为缓解资金压力,一些云服务提供商去年与英伟达达成了折扣协议,允许他们根据实际使用量以较低价格购买芯片[9] - 英伟达还向一些退回服务器的客户退还了款项[9] - 在截至去年8月的三个月里,Oracle在出租Blackwell系列芯片方面亏损了近1亿美元,主要原因是调试服务器并将其交付给客户所需时间远远落后于客户开始使用并支付租金的时间[9] - 一份为Oracle云业务高管准备的内部演示文稿指出,租用Grace Blackwell芯片的毛利率为负,主要是由于OpenAI位于德克萨斯州阿比林的数据中心的芯片部署问题以及客户验收周期滞后[10]
英伟达Blackwell芯片部署挑战,何解