Nvidia-谷歌(GOOGL.US)新一代TPU即将发布：AI推理时代向英伟达发起关键一击

行业趋势：AI算力竞争从训练转向推理 - 全球AI算力竞争正发生结构性转移，从以模型训练为核心转向以大规模推理为主导[1] - 随着AI应用软件与AI智能体采用规模激增，衡量算力的标准正从“峰值性能”转向“单位token成本、延迟与能效”[1] - 未来AI数据中心将进入异构算力时代，前沿训练和广义云算力继续由GPU主导，超大规模内部推理、Agent工作流和固定高频负载则加速转向ASIC[6] 谷歌的战略与产品发布 - 谷歌计划在Google Cloud Next大会上宣布新一代定制化AI芯片——张量处理单元（TPU）[1] - 谷歌正试图以自研TPU体系，对占据AI芯片市场约80%至90%份额的英伟达发起正面挑战[1] - 谷歌明确把Ironwood TPU定位为“为AI推理时代而生”的TPU代际，并强调性能、能效、算力集群性价比与可扩展性[4] - 谷歌正在测试允许像Anthropic这样的公司将其部分TPU运行在它们自己的实体大型AI数据中心内，而不是谷歌的云计算基础设施中[8] - 谷歌已允许TPU客户使用PyTorch等外部工具以及其他调度软件，而不再仅仅依赖谷歌自己的产品[8] TPU的市场需求与客户采用 - 谷歌独家研发的TPU AI芯片已成为全球科技行业最炙手可热的商品之一，包括其最大竞争对手在内的领先AI技术开发商正纷纷囤积这些芯片[2] - Anthropic宣布扩大算力供给协议，获得最多100万个谷歌TPU的使用权[6] - Meta Platforms Inc.签署了一项为期数年且价值数十亿美元的AI算力基础设施供给协议，通过Google Cloud来使用TPU[7] - Anthropic与谷歌的TPU合作伙伴博通签署了一项长期协议，涉及的自研芯片将使其自2027年起能够利用约3.5吉瓦的计算能力[7] - Citadel Securities计划展示TPU如何使其比使用GPU时更快地训练AI大模型[7] - 阿布扎比科技集团G42也已就使用谷歌TPU与谷歌进行了“多次讨论”[7] AI芯片技术路线：ASIC的崛起与优势 - 以TPU为代表的AI ASIC路线在“单位token成本、延迟与能效”领域最具优势[1] - 经济性与电力层面的重大约束，迫使微软、亚马逊、谷歌以及Meta都在推动AI ASIC技术路线的云计算内部系统自研AI芯片，核心目的是让AI算力集群更具性价比与能效比[3] - 科技巨头力争把“单位Token成本、单位瓦特产出”做到极致，属于AI ASIC技术路线的繁荣盛世可谓已经到来[3] - 自研AI ASIC能提供“第二曲线产能”，并在采购谈判、产品定价与云计算服务毛利层面更主动[4] - 云计算大厂能把“芯片—互联—系统—编译器/运行时—调度—观测/可靠性”一体化共设计，提高算力基础设施利用率并降低总拥有成本[4] - 面向特定工作负载定制的ASIC，在每token成本、功耗、内存带宽利用率、互连效率以及软硬件协同后的总拥有成本等指标上，天然比通用GPU更容易做到高性价比[5] 谷歌TPU的研发历程与挑战 - 谷歌的TPU与其AI研究工作同步演进，2017年的一篇开创性研究论文催生了今天的大语言模型，也推动TPU团队将重点放在为训练更大型AI系统而设计的芯片上[9] - 谷歌构建了内部的独家AI校验系统，以更快发现可能对应用软件端造成巨大影响的制造缺陷[11] - 谷歌面临与英伟达、AMD以及博通等其他芯片巨头类似的挑战：芯片开发通常需要大约三年时间，但AI大模型演进的速度要快得多，使得预测客户几年后的需求变得困难[13] - 随着谷歌芯片越来越受欢迎，该公司面临着与英伟达类似的供应限制[14] - 谷歌需要决定如何在其自身不断增长的竞争性质AI大模型基础设施服务，以及其不断扩大的客户名单之间分配TPU[14] - 谷歌意识到“只为谷歌独家制造TPU”存在“技术孤岛”风险，可能导致人口受限、多样性受限，最终变得不那么好[14]