SemiAnalysis深度解读TPU--谷歌冲击“英伟达帝国”
华尔街见闻·2025-11-29 13:07

行业竞争格局演变 - 谷歌TPU的全面商业化正对英伟达在AI算力市场的定价权和主导地位构成实质性挑战,其高达75%的毛利率神话面临松动[1] - 谷歌已从云服务商转型为直接向外部出售高性能芯片与系统的商用芯片供应商,Anthropic、Meta、SSI、xAI等顶级AI实验室均出现在其潜在客户名单中[1][4] - 英伟达面对竞争压力展现出防御姿态,其财务团队近期针对"循环经济"的质疑发布长文辩解,显示出市场攻势已触及公司神经[5] 重大商业交易分析 - Anthropic已确认将部署超过100万颗TPU,此笔交易采用极具破坏力的"混合销售"新模式[4] - 交易中首批约40万颗最新的TPUv7 "Ironwood"由博通直接出售给Anthropic,价值约100亿美元,博通作为联合设计方成为隐形赢家[4] - 剩余60万颗TPUv7通过谷歌云租赁,估算涉及高达420亿美元的剩余履约义务,直接支撑了谷歌云近期积压订单的暴涨[4] 成本效率与TCO优势 - SemiAnalysis模型数据显示,谷歌TPUv7在成本效率上对英伟达构成碾压优势[7] - 从谷歌内部视角看,TPUv7服务器的总拥有成本比英伟达GB200服务器低约44%[7] - 即便加上谷歌和博通的利润,Anthropic通过GCP使用TPU的TCO仍比购买GB200低约30%[7] - 具体数据显示,GB200 NVL72每小时每GPU总成本为2.28美元,而TPU v7对外部客户的成本为1.60美元,内部成本更低至1.28美元[8][65] 技术创新与系统设计 - 谷歌通过极致的系统设计弥补了单颗TPU在理论峰值算力上的不足,TPUv7 "Ironwood"在内存带宽和容量上已大幅缩小与英伟达旗舰芯片的差距[12] - 谷歌独步天下的光互连技术是其杀手锏,利用自研的光路交换机和3D Torus拓扑结构,构建了名为ICI的片间互连网络[15] - 该架构允许单个TPUv7集群扩展至惊人的9,216颗芯片,远超英伟达常见的64或72卡集群,并具备动态重构拓扑、高可用性和低功耗延迟的优势[16][17] 软件生态战略转变 - 谷歌已对TPU软件战略做出重大转变,从固守JAX语言转向全力支持PyTorch Native在TPU上的运行,以拆除阻碍外部客户采用的最大障碍[19][21] - 谷歌不再依赖低效的Lazy Tensor转换,而是通过XLA编译器直接对接PyTorch的Eager Execution模式,使Meta等客户可几乎无缝迁移代码至TPU[21] - 公司开始向vLLM和SGLang等开源推理框架大量贡献代码,这意味着英伟达最坚固的"CUDA护城河"正被谷歌用"兼容性"填平[21][23] 金融工程与商业模式创新 - 谷歌通过"超级云厂商兜底"的金融工具创新解决了AI基础设施建设中的期限错配难题,承诺若中间商无法支付租金将介入兜底[9] - 这一资产负债表外的信贷支持打通了加密货币矿工与AI算力需求之间的堵点,构建了一个独立于英伟达体系的低成本基础设施生态[9] - 在Anthropic交易中,谷歌提供了独特的变通方案,不直接租赁而是提供信用兜底,形成了新的行业融资模板[42] 性能验证与市场影响 - 全球最顶尖的两个模型——Anthropic的Claude 4.5 Opus和谷歌的Gemini 3,其绝大部分训练和推理基础设施都运行在谷歌的TPU上,这是对TPU系统处理最高难度任务能力的终极背书[17][24] - OpenAI仅凭"威胁购买TPU"这一筹码,就迫使英伟达生态链做出了实质性让步,使其计算集群的总拥有成本下降了约30%[1][36] - 行业研究机构强调,客户购买的TPU越多,节省的Nvidia GPU资本支出就越多,这已成为核心商业逻辑[26][36]