Nvidia-“反英伟达联盟”正在变强，4.4万亿美元芯片帝国遭遇“四面围猎”

文章核心观点 - AI芯片市场格局正从英伟达一家独大转向多方竞争，其主导地位面临来自定制芯片阵营、云服务商自研、传统对手及初创公司的多重挑战，竞争焦点正从训练转向推理，效率与成本的重要性日益凸显 [3][4][33][34] 大客户倒戈：云服务商自研芯片 - 谷歌自研TPU已近十年，第七代TPU Ironwood峰值性能达4.6 petaFLOPS，略高于英伟达B200且功耗更低，已开始对外出租给Meta等公司，AI初创公司Anthropic计划使用上百万颗Ironwood运行Claude模型 [5] - 亚马逊AWS推出专用训练芯片Trainium和推理芯片Inferentia，Anthropic正使用50万颗Trainium 2芯片训练模型，未来亚马逊将为其建设拥有上百万颗芯片的数据中心集群 [6] - 微软自研Maia 100加速器专为Azure工作负载设计，Meta内部已部署超过150万颗自研MTIA芯片，其逻辑是避免英伟达赚取73%的高毛利 [9] 定制芯片的围剿 - 博通专注于AI定制芯片（ASIC），占据该市场超过50%的份额，是谷歌TPU、Meta MTIA及OpenAI Titan等大客户自研芯片的技术后台 [3][11] - 博通2026年在台积电的CoWoS晶圆预定量达20万片，同比猛增122%，这些产能主要分配给谷歌（60%-65%）、Meta（20%）及OpenAI（Titan芯片占5%-10%，2027年将超20%） [11][12] - 博通与OpenAI签署大单，共同开发规模达100亿瓦特的定制AI加速器和机架系统，计划2026年底开始部署，2029年完成，其定制芯片在推理任务上成本可比英伟达GPU低30%到50% [13] 老对手反击：AMD与英特尔 - AMD坚定进行AI转型，市值从不到千亿美元涨至3500多亿美元，其MI300X加速器（192GB HBM3内存，带宽5.3TB/s）已部署在微软Azure上为ChatGPT做推理，2024年向微软、Meta、甲骨文出货约32.7万颗，新一代MI325X已出货，MI350系列声称推理性能提升35倍 [14] - 英特尔以高性价比和低功耗反击，Gaudi 3加速器定价约为英伟达H100的一半，功耗600W（比H100低100W），官方宣称在某些训练任务上比H100快1.5倍，性价比高2.3倍，已获得戴尔、慧与、联想等系统厂商支持 [16][19] 新秀突袭：初创公司的机会 - 初创公司Groq专攻推理芯片，以速度快、成本低让英伟达紧张，后者于去年12月斥资170亿美元从Groq购买技术授权并挖走核心团队 [20] - Cerebras估值230亿美元，其“晶圆级”芯片CS-3号称比英伟达H系列快20倍而价格只是零头，今年1月与OpenAI签署了100亿美元大单 [20][22] - 众多初创公司如SambaNova、Tenstorrent等获得数亿至数十亿美元投资，共同判断AI计算正从训练转向推理，预计到2030年推理将占全球AI计算需求的75%，而推理任务对成本和延迟敏感，是专用芯片的机会 [22] 英伟达的应对与绑定策略 - 英伟达采取开放与合作策略，将NVLink网络技术授权给英特尔、高通、富士通、Arm等第三方，旨在使不同架构的CPU都能与其GPU更好兼容 [23] - 公司与xAI深度绑定，xAI的Colossus超级计算机几乎全部采用英伟达Hopper和Blackwell系列GPU，规模已超20万颗并向百万颗迈进，芯片采购达数百亿美元，英伟达还向xAI投资了20亿美元 [23][24] 深层威胁：CPU复兴与电力瓶颈 - 随着智能体AI崛起，需要大量任务调度编排，CPU重要性复兴，英伟达自研数据中心CPU Grace已推出第二代Vera，并与Meta签署多年协议首次大规模独立部署Grace CPU，美国银行预测CPU市场规模将从2025年的270亿美元增长至2030年的600亿美元，但行业面临供应紧张、交付周期拉长至六个月及价格上涨超10%的问题 [25] - 电力成为AI基础设施关键瓶颈，英伟达B200 GPU满配功耗达1200瓦，比H100增加71%，其GB200训练机架整机功耗达120千瓦，德勤调查显示72%的美国数据中心和电力公司高管认为电网与供电容量构成严峻挑战，全球仅不到5%的数据中心能支持单机架50千瓦以上功率密度，而Blackwell需求为60到120千瓦，高盛预测到2030年全球数据中心电力需求将比2023年增长165% [26][29][32] - 电力瓶颈为低功耗方案创造窗口期，谷歌称其Ironwood芯片能效是第一代云TPU的30倍，英特尔也将低功耗作为Gaudi 3核心卖点 [32] 软件生态护城河的挑战 - 英伟达CUDA软件生态是其深厚护城河，拥有数百万开发者及主流框架优化支持，但正面临挑战 [34] - AMD的ROCm软件堆栈正在缩小差距，PyTorch已正式支持ROCm，AMD还开发了CUDA兼容层ZLUDA，微软据称在开发CUDA模型迁移工具，OpenAI的Triton 3.0已支持AMD Instinct加速器，CUDA的锁定效应正逐年减弱 [34]