Nvidia-「选了谷歌，落后一年！」美国AI领袖「砸场」谷歌：省点钱却输了时间！英伟达笑醒？

Midjourney对谷歌TPU的公开复盘与代价 - Midjourney创始人公开表示，因早期选择谷歌TPU而非英伟达GPU作为核心训练基础设施，导致其研究进度落后了整整一年 [2] - 此次吐槽发生在谷歌I/O大会期间，来自一家与谷歌有深度合作的知名AI企业，相当于为英伟达做了最好的背书 [2] - 其懊悔的核心在于，应该在研究阶段用英伟达GPU打磨模型，推理阶段再迁移到谷歌TPU降本，而非从一开始就在TPU上做研究 [13] 谷歌TPU与英伟达GPU的核心差异 - 英伟达GPU搭配CUDA平台拥有近二十年的生态沉淀，与PyTorch等主流框架深度绑定，形成了完整的研究工具链，是全球AI研究员的默认平台 [6] - 谷歌TPU是专用集成电路，专为深度学习张量运算优化，但要求使用JAX或TensorFlow框架，对PyTorch支持长期不完善，社区资源和调试工具匮乏 [7] - 对于Midjourney的图像生成研究，在GPU+PyTorch环境下可快速进行自定义算子实验和原型迭代，而在TPU上配置环境和适配框架可能耗时数天，长期累积导致进度落后 [9] TPU在推理阶段的成本优势与Midjourney的选择逻辑 - Midjourney选择谷歌TPU的直接动力是降低成本并避免与巨头争抢英伟达显卡，使用TPU v4/v5训练模型，同时租用谷歌云上的英伟达GPU集群处理用户推理 [11] - 2025年第二季度，Midjourney将主力推理集群迁移到谷歌Cloud TPU v6e，月度推理支出从约210万美元骤降至70万美元以下，年化节省超过1680万美元，回本周期仅11天 [12] - 在推理阶段，TPU的性价比优势是真实的，但研究阶段的生态摩擦成本高昂 [13] 英伟达的生态护城河与谷歌的应对策略 - 英伟达的核心护城河在于其建立的软件生态，包括研究员的工作习惯、海量开源代码库以及学术界默认GPU作为实验平台的行业惯性，2026年PyTorch在研究论文中占有率仍高达85% [14] - 谷歌在最新云大会上发布第八代TPU，首次采用双芯片策略：TPU 8t（训练）和TPU 8i（推理），旨在解决训练与推理负载分化的问题 [14] - TPU 8t训练性价比比上代提升2.7倍，TPU 8i在大型MoE模型低延迟推理上性价比比上代提升80%，两款芯片采用台积电2纳米工艺，预计2027年量产 [15] - 针对TPU生态的抱怨，谷歌同步推出了TorchTPU项目，旨在让PyTorch原生运行在TPU上，但目前仍处于预览版状态 [16] Anthropic的多平台策略与工程实践 - Anthropic同时使用英伟达GPU、谷歌TPU和亚马逊Trainium三套硬件，接受了谷歌和亚马逊近100亿美元的巨额投资，这些投资部分折现为云服务营收 [18] - Anthropic使用超过百万张亚马逊Trainium芯片和数十万张谷歌TPU，并与SpaceX达成算力租赁协议，每年支付150亿美元使用其GPU算力 [18][20] - 其多平台策略是不同工作负载匹配最适合的芯片：英伟达GPU用于研究实验和快速原型；谷歌TPU和亚马逊Trainium分别承接大规模训练和推理 [21] - Anthropic与亚马逊签署协议，将在未来十年向AWS投入超过1000亿美元，获得最多5吉瓦的算力容量 [21] - Anthropic的核心技术优势在于创始团队来自Google Brain，以JAX作为核心训练框架，其硬件无关特性允许同一套代码在不同硬件上运行 [24] - 多平台策略代价高昂，需要派驻专家与芯片团队联合开发，每次模型更新需在三套架构上测试，部署复杂度是单一平台的三倍，并曾因基础设施漏洞导致服务性能下降 [26][27] - 付出高昂工程成本后，Anthropic获得回报，谷歌TPU和亚马逊Trainium在大规模推理时的性价比比英伟达平台高出50%以上 [28] AI基础设施未来竞争格局 - 训练侧格局：英伟达仍是研究实验和快速迭代首选，但在超大规模稳定训练上，TPU和Trainium正以性价比优势侵蚀份额，趋势是“研究用GPU、训练用专用芯片”的混合策略 [32] - 推理侧格局：推理是AI算力支出中增速最快的部分，2026年初已占55%，预计2030年将占75%，TPU和Trainium的专用优化能带来如Midjourney案例中65%的成本削减 [32] - 生态侧战局：谷歌TorchTPU项目能否成功让PyTorch研究员无缝迁移至TPU是其关键挑战；亚马逊则通过Trainium与PyTorch的兼容性及Bedrock平台构建应用层生态 [33] - 供给侧变量：谷歌TPU大规模量产受台积电先进封装产能制约，原计划2026年400万颗的目标已推迟至2027年，供给制约在2026年仍将为英伟达留下缓冲空间 [33] - 对中小型AI公司的启示：研究阶段全用英伟达以降低生态摩擦、加快迭代，待模型稳定、推理规模上来后再评估TPU迁移的经济账 [34] - 对Anthropic级公司的意义：多平台策略不仅为省钱，更是为确保供应链安全、防止单一供应商绑架，并以此作为与云巨头谈判的议价筹码 [35]