Workflow
NVSwitch互联芯片
icon
搜索文档
云巨头,为何倒向英伟达?
半导体行业观察· 2026-02-19 10:46
Meta与英伟达的AI算力合作 - 公司近期与英伟达达成大规模AI系统交易,这是双方已知的第三起巨额合作,交易规模远超上一次,对英伟达而言价值至少数百亿美元,原始设计制造商还能获得额外收益[2] - 尽管公司一直致力于自研AI芯片(如MTIA项目)并收购RISC-V厂商Rivos,但仍向英伟达投入巨额资金,采购整系统、GPU、NVSwitch互联芯片并扩展InfiniBand网络[3] - 此次合作涉及采购数百万片英伟达Blackwell与Rubin GPU,部分部署在自有数据中心,另一部分(未披露比例)将从英伟达的云合作伙伴处租赁算力[7] - 初期部署将以GB300系统为主,优先面向推理任务,可能附带少量训练[8] - 合作还包含英伟达所称的“首个大规模纯Grace部署”,推测指的是Grace-Grace超级芯片,双方正在研究如何部署纯Vera (Grace) 算力,并有望在2027年大规模落地[8][9] 公司AI算力战略的演变与选择 - 当AI算力需求足够紧迫时,公司愿意放弃自家开放计算项目(OCP)的设计方案,转而采用英伟达的方案,前两起案例及本次新案例均体现了这一点[2] - 公司最初并不想大量采购英伟达GPU,但因英特尔Ponte Vecchio GPU延迟、AMD MI250X供货不足,最终选择英伟达A100 GPU搭建其研究超级计算机(RSC)[4] - 该RSC系统为2000节点,搭载4000颗AMD CPU与16000颗英伟达A100 GPU加速器,合同于2022年1月签订并当年部署[5] - 2022年3月,公司计划投资A100与H100加速器,打造总算力超过50万片H100等效算力的集群舰队,包括两套各搭载24576颗GPU的基于Grand Teton平台的集群[5] - 为紧急补齐AI算力缺口,公司于2022年5月与微软达成协议,在Azure云上采购基于NDm A100 v4实例的虚拟超算资源[5] - 公司近期试图降低对英伟达依赖,推出自研MTIA v2推理加速器,并与AMD合作设计“Helios”机架方案,其密度为英伟达Oberon机架的一半[6] - 本次合作公告中未提及InfiniBand,表明公司已做出长期选择[8] 合作规模与财务影响估算 - 假设合同为逐年放量,总规模达到200万到300万颗GPU[11] - 若全部采用GB300算力集群,单套GB300 NVL72机柜成本超过400万美元,采购200万到300万颗GPU的总价值大约在1100亿到1670亿美元之间[11] - 公司希望尽可能少租算力,因为四年周期内,租赁GPU成本是直接购买的4~6倍,且无法利用其重金建设的自有数据中心[11] - 租赁算力属于运营支出,不计入资本支出预算,公司2026年的资本支出预算预计为1250亿美元[12] 行业背景与公司定位 - 在超大规模云厂商与大模型厂商中,公司定位独特:不仅为搜索加入AI能力、打造通用大模型,还高举开源大旗,并运营庞大的高性能集群作为推荐引擎[3] - 公司推荐引擎系统需要CPU与加速器紧密耦合,英伟达的Grace-Hopper超级芯片正是瞄准这类场景设计,且公司拥有大量此类设备[3] - 所有超大规模云厂商与云服务商都希望拥有自研CPU与XPU,包括公司在内,有传闻称公司还在与谷歌洽谈租用TPU算力,并最终希望在自有系统中用上自研TPU[12]