专家解读-Claude算力和谷歌TPU
2026-04-13 14:12

涉及的行业与公司 * 行业:人工智能(AI)算力、AI芯片设计与制造、数据中心基础设施 * 公司:Anthropic、谷歌(Google)、英伟达(NVIDIA)、博通(Broadcom)、台积电(TSMC)、英特尔(Intel)、联发科(MediaTek)、亚马逊(AWS)、Meta、XAI、富士康工业互联网(FII)、Marvell、Astera Labs、澜起科技(Montage Technology)[1][3][4][5][6][11][12][14][15][16][17][19][21] 核心观点与论据 Anthropic的算力结构转型与规划 * Anthropic当前算力结构中,英伟达GPU占比最高,约为65%,主要通过AWS获得;AWS Trainium 2占比约10%;剩余部分为谷歌TPU[6] * 预计到2026年,Anthropic算力构成将发生显著变化:谷歌TPU占比将升至30%-35%,英伟达GPU占比将相应下降至50%左右[1][7] * 部署TPU的核心目标之一是替代英伟达GPU的推理任务以降低成本[1][8] * Anthropic已确定需要投入约100亿美元用于算力采购[10] 谷歌TPU的产能、出货与客户分配 * 2025年谷歌TPU出货量约为300万颗,预计2026年将增至420万至450万颗,其中外销芯片将超过100万颗[1][4][16] * 谷歌自身的Gemini大模型及其他需求每年消耗约100万至150万颗TPU,对应约2到2.5吉瓦算力,这部分需求有保障且趋于稳定[4] * Anthropic在合作中直接购买TPU芯片(外售模式),而非租用云服务[19] * Anthropic将获配的TPU数量:2026年40万颗,2027年60万颗[1][4] * 2026年交付的40万颗TPU将主要用于推理,而非大规模集群训练[8] 谷歌TPU v8的架构革新与供应链变化 * 内存池化方案:TPU v8(预计2027年)将引入基于CXL(Compute Express Link)的内存池化方案,实现存算分离[1][10] * HBM用量变化:v8单芯片的HBM用量将减少约30%,但通过共享DDR内存池,总存储容量将提升至原有方案的1.5到2倍[1][24] * 代工产能转移:因台积电先进封装产能被英伟达锁定,谷歌计划在2027年将20%-30%的TPU产能转移至英特尔,采用其EMIB封装技术[1][17] * 2026年出货构成:TPU v6上半年出货约110万颗;TPU v7全年出货约200万颗;TPU v8下半年出货100万至120万颗[16] * HBM供应:TPU v8将切换至HBM4,谷歌已有确定的HBM供应,但获取量不及英伟达[16] 合作模式与生态关系 * Anthropic-谷歌-博通合作模式:博通负责底层TPU设计及TPU间通讯技术;谷歌提供3.5吉瓦TPU集群,负责数据中心部署环境及通过Vertex AI平台提供服务;Anthropic购买芯片,将硬件和数据中心搭建交由合作伙伴,专注于模型和Agent系统[3] * 新模式利弊:利在于获得深度定制化服务和架构优化,弊在于成本控制权不在Anthropic手中[3] * Anthropic的多元供应商策略:合作伙伴不限于谷歌,也少量使用AWS的Trainium架构,其下一代训练芯片(Trainium 4)已计划由博通协助设计,预计最早2027年下半年推出[5] * 对英伟达的策略:Anthropic采用TPU以降低成本,未来当TPU达到一定规模后,可能以此为筹码向英伟达争取更优惠价格,但短期内超过50%算力仍依赖GPU[23] AI推理优化与互联技术趋势 * 推理阶段芯片定制化:未来将针对Prefill和Decode阶段采用不同定制芯片以实现成本效率最优化[1][14] * 联发科v8a芯片:由联发科协助设计的v8a芯片侧重低延迟推理,2026年供应量约60万颗,2027年可能突破100万颗[1][15] * 互联技术演进: * OCS(Optical Circuit Switch)方案因成本比传统以太网高出约50%,将逐步被取代[2][20] * 博通战略重点转向CPO(Co-Packaged Optics)工艺,预计2027年进入小规模量产[2][11] * 未来更倾向于发展Scale-up Ethernet方案,因其采用开放以太网协议,便于混合部署不同厂商芯片,实现更好的互联互通[11][20] * 内存池化供应商:谷歌TPU的内存池化方案主要由博通提供;其他客户(如微软、亚马逊)可能采用联发科或Marvell的CXL技术[14] 其他重要参与方动态 * 亚马逊与博通合作:已于2026年Q1确定合作,启动下一代训练芯片(Trainium 4)前期设计,旨在成为2027-2028年主要部署型号,预计2027年下半年推出并规模化量产[15] * Meta与XAI的采购策略:倾向于直接购买AI芯片并进行定制化组网,因长期看租用成本更高[21] * Meta:是外部芯片采购种类最多的公司之一,涵盖AMD、谷歌、英伟达GPU,其自研AI芯片年出货量约40万颗[21] * XAI:自身在研发芯片,预计2027年推出由博通代工的产品,此前也向谷歌大量购买芯片[21] * 服务器代工:谷歌TPU服务器代工主要由富士康工业互联网负责,份额占比70%至80%[19] 其他重要但可能被忽略的内容 * Anthropic总算力规模:截至目前,Anthropic总算力约2吉瓦,其中训练算力占比稍高约70%,预计到2026年底训练算力比例将降至50%以下[7] * 3.5吉瓦合作计划分布:2026年部署近1吉瓦算力(主要推理),2027年累计达2吉瓦以上;与此前1吉瓦计划无冲突,后者属于架构升级[9] * 谷歌产品性能下降原因:用户体验到的性能下降主要源于带宽和电力问题,而非算力短缺;谷歌可能对非付费用户采用“低功耗模式”以节约电力成本[5] * 模型训练依赖:目前绝大多数主流大模型(除谷歌Gemini)几乎100%使用英伟达芯片进行训练,因其CUDA生态系统效率最高[6] * CXL方案供应商:主要厂商包括博通、Marvell、Astera Labs以及中国的澜起科技等[12] * OCS使用比例:2026年在Anthropic的TPU集群中,OCS互联方案预计仍占60%至80%的部署[20]

专家解读-Claude算力和谷歌TPU - Reportify