Midjourney对谷歌TPU的公开复盘与代价 - Midjourney创始人公开表示,因早期选择谷歌TPU而非英伟达GPU作为核心训练基础设施,导致其研究进度落后了整整一年 [2] - 此次吐槽发生在谷歌I/O大会期间,来自一家与谷歌有深度合作的知名AI企业,相当于为英伟达做了最好的背书 [2] - 其懊悔的核心在于,应该在研究阶段用英伟达GPU打磨模型,推理阶段再迁移到谷歌TPU降本,而非从一开始就在TPU上做研究 [13] 谷歌TPU与英伟达GPU的核心差异 - 英伟达GPU搭配CUDA平台拥有近二十年的生态沉淀,与PyTorch等主流框架深度绑定,形成了完整的研究工具链,是全球AI研究员的默认平台 [6] - 谷歌TPU是专用集成电路,专为深度学习张量运算优化,但要求使用JAX或TensorFlow框架,对PyTorch支持长期不完善,社区资源和调试工具匮乏 [7] - 对于Midjourney的图像生成研究,在GPU+PyTorch环境下可快速进行自定义算子实验和原型迭代,而在TPU上配置环境和适配框架可能耗时数天,长期累积导致进度落后 [9] TPU在推理阶段的成本优势与Midjourney的选择逻辑 - Midjourney选择谷歌TPU的直接动力是降低成本并避免与巨头争抢英伟达显卡,使用TPU v4/v5训练模型,同时租用谷歌云上的英伟达GPU集群处理用户推理 [11] - 2025年第二季度,Midjourney将主力推理集群迁移到谷歌Cloud TPU v6e,月度推理支出从约210万美元骤降至70万美元以下,年化节省超过1680万美元,回本周期仅11天 [12] - 在推理阶段,TPU的性价比优势是真实的,但研究阶段的生态摩擦成本高昂 [13] 英伟达的生态护城河与谷歌的应对策略 - 英伟达的核心护城河在于其建立的软件生态,包括研究员的工作习惯、海量开源代码库以及学术界默认GPU作为实验平台的行业惯性,2026年PyTorch在研究论文中占有率仍高达85% [14] - 谷歌在最新云大会上发布第八代TPU,首次采用双芯片策略:TPU 8t(训练)和TPU 8i(推理),旨在解决训练与推理负载分化的问题 [14] - TPU 8t训练性价比比上代提升2.7倍,TPU 8i在大型MoE模型低延迟推理上性价比比上代提升80%,两款芯片采用台积电2纳米工艺,预计2027年量产 [15] - 针对TPU生态的抱怨,谷歌同步推出了TorchTPU项目,旨在让PyTorch原生运行在TPU上,但目前仍处于预览版状态 [16] Anthropic的多平台策略与工程实践 - Anthropic同时使用英伟达GPU、谷歌TPU和亚马逊Trainium三套硬件,接受了谷歌和亚马逊近100亿美元的巨额投资,这些投资部分折现为云服务营收 [18] - Anthropic使用超过百万张亚马逊Trainium芯片和数十万张谷歌TPU,并与SpaceX达成算力租赁协议,每年支付150亿美元使用其GPU算力 [18][20] - 其多平台策略是不同工作负载匹配最适合的芯片:英伟达GPU用于研究实验和快速原型;谷歌TPU和亚马逊Trainium分别承接大规模训练和推理 [21] - Anthropic与亚马逊签署协议,将在未来十年向AWS投入超过1000亿美元,获得最多5吉瓦的算力容量 [21] - Anthropic的核心技术优势在于创始团队来自Google Brain,以JAX作为核心训练框架,其硬件无关特性允许同一套代码在不同硬件上运行 [24] - 多平台策略代价高昂,需要派驻专家与芯片团队联合开发,每次模型更新需在三套架构上测试,部署复杂度是单一平台的三倍,并曾因基础设施漏洞导致服务性能下降 [26][27] - 付出高昂工程成本后,Anthropic获得回报,谷歌TPU和亚马逊Trainium在大规模推理时的性价比比英伟达平台高出50%以上 [28] AI基础设施未来竞争格局 - 训练侧格局:英伟达仍是研究实验和快速迭代首选,但在超大规模稳定训练上,TPU和Trainium正以性价比优势侵蚀份额,趋势是“研究用GPU、训练用专用芯片”的混合策略 [32] - 推理侧格局:推理是AI算力支出中增速最快的部分,2026年初已占55%,预计2030年将占75%,TPU和Trainium的专用优化能带来如Midjourney案例中65%的成本削减 [32] - 生态侧战局:谷歌TorchTPU项目能否成功让PyTorch研究员无缝迁移至TPU是其关键挑战;亚马逊则通过Trainium与PyTorch的兼容性及Bedrock平台构建应用层生态 [33] - 供给侧变量:谷歌TPU大规模量产受台积电先进封装产能制约,原计划2026年400万颗的目标已推迟至2027年,供给制约在2026年仍将为英伟达留下缓冲空间 [33] - 对中小型AI公司的启示:研究阶段全用英伟达以降低生态摩擦、加快迭代,待模型稳定、推理规模上来后再评估TPU迁移的经济账 [34] - 对Anthropic级公司的意义:多平台策略不仅为省钱,更是为确保供应链安全、防止单一供应商绑架,并以此作为与云巨头谈判的议价筹码 [35]
「选了谷歌,落后一年!」美国AI领袖「砸场」谷歌:省点钱却输了时间!英伟达笑醒?