Google产业链专家
2025-12-08 23:36

涉及的行业与公司 * 行业:人工智能芯片(AI加速器)、数据中心基础设施、半导体设计服务[1][2][5][11][26][29] * 核心公司:谷歌(Google/Alphabet)、博通(Broadcom)、英伟达(NVIDIA)[1][2][5][8][11][29] * 其他提及公司: * 客户/竞争对手:OpenAI、Meta、苹果(Apple)、XAI、Anthropic、微软(Microsoft)、亚马逊(Amazon)、字节跳动、阿里巴巴、百度、华为、软银(SoftBank)、Oracle[1][4][5][7][10][26][27][29] * 供应链:台积电(TSMC)[17] 谷歌TPU出货量与市场预期 * 2025年出货量:整体TPU出货量预计约330万颗,其中V5约180万颗,V6约120万颗[2] * 2026年出货量:预计超过400万颗,其中V6约220万颗,V7约180万颗[1][2] * 2027年出货量:预计超过500万颗,其中V8成为主力,预计330万颗,V7接近200万颗[1][3] * 外卖芯片出货量:2025年预计超过50万颗,2026年预计超过100万颗[1][4] * 外卖芯片客户结构(2025年):OpenAI、Meta、苹果、XAI各约10万颗,欧洲云厂商等小客户合计约10万颗[7] * 外卖芯片客户结构(2026年预期):Anthropic约40万颗,苹果约20万颗,OpenAI和XAI等客户分享剩余约40万颗[7] * GPT-7出货计划:计划于2026年第一季度开始出货,预计全年出货量达180万颗[2][12] 谷歌TPU产品技术细节与规划 * 产品定位与性能: * V7针对推理进行深度优化,延迟响应更快,并发处理能力更强[2][13] * V8在训练性能上有显著提升[2][13] * V8预计采用Cube架构,由64颗芯片组成一个Cube,通过OCS光互联连接多个Cube,形成超级算力节点,节点规模比英伟达更高[13] * 内存技术: * V6使用HBM3E[2][26] * V7使用HBM3[2][26] * V8预计采用HBM4,预计2026年第一季度量产,带宽和算力有望提升至少一倍以上[2][13][26] * 服务器配置:V7和V8在服务器单柜内均包含64颗处理器芯片[14] * 功耗: * V7单核功耗初步模拟接近600瓦,与英伟达B200基本处于同一水平(B200双核总功耗约1200瓦)[23] * V8的功耗及算力指标预计在2026年第一季度最终确定[22] * 生产与量产: * V7全量产原计划2025年,现已推迟至2026年第一季度,计划在苏州进行新界面测试后实现[20] * V8有可能在2026年第四季度提前量产[19] * 产品节奏:近年产品节奏变化,2025年仅一款型号,2026年有两款DJX系列产品,但实际性能提升可能有限[21] 谷歌TPU的竞争优势与客户动机 * 核心优势:在架构、功耗和成本方面具有独特优势[1][5][29] * 吸引竞争对手采购的原因: 1. 学习并借鉴其成熟芯片架构,以辅助自身芯片开发[1][5] 2. 降低对英伟达方案的依赖,实现供应商多元化[1][5] 3. 在未来三至五年的过渡期内,可能同时使用英伟达和谷歌的芯片以优化采购和架构[5] * 市场定位:并非通用AI加速芯片,而是针对特定模型进行优化,注重功耗和成本优势,电路设计更简单[29] * 转换挑战:从英伟达方案转向TPU存在迁移成本,例如将ChatGPT完全切换到TPU需要大量工作且存在不确定性,因此客户通常先在推理模型上引入TPU[6][7] 合作模式与供应链 * 谷歌与博通的分工演变: * 早期:博通负责整个芯片的前端结构设计和后端实现[8] * 目前:谷歌负责整体芯片架构、算法和结构验证;博通负责芯片集成、具体电路实现、内部互联、电源管理电路设计以及后端布局布线、流片测试和封装[8] * 趋势:谷歌在核心模块上参与度提高,以保护核心架构知识并提高沟通效率,但整体芯片集成和性能优化仍由博通主导[8][9] * 博通与字节跳动的合作:字节跳动芯片设计团队处于学习阶段,博通承担更多责任,包括前端和后端设计及结构优化,字节跳动主要提出算力和带宽需求[10] * 定价机制:基于谷歌内部交货费用除以出货量得出,主要包括三部分:设计前期NRE成本、生产制造成本(如台积电流片费)、以及博通提供设计和技术支持所增加的毛利率(通常在60%-70%)[2][17] * 芯片售价(参考): * V6芯片售价约8,000美元[2][18] * V7价格约10,000-12,000美元[2][15] * V8预计售价接近15,000美元[2][15] 基础设施需求对比(光模块) * 英伟达GPU:通常采用72卡机柜结构,每卡含两颗GPU,共144颗GPU,每台机柜需要1-2台交换机,每个交换机需64个800G光模块,即每个GPU对应一个800G光模块[11] * 谷歌TPU:一个板卡上有4颗TPU,每两颗TPU对应一个800G光模块[1][11] * 结论:相比之下,英伟达GPU对光模块的需求量更大[1][11] 算力提升策略与挑战 * 双管齐下策略:硬件升级结合软件优化[2][24] * 硬件瓶颈:芯片工艺迭代速度较慢,5/4/3纳米已成熟,2纳米预计要到2027或2028年,单靠硬件难以实现大幅度算力增长[24] * 软件优化:深挖软件算法,通过优化软件来提升算力效率,已成为业界普遍策略[2][24][25] 网络架构创新 * OCS(光互联交换机)技术: * 优势:带宽无限、传输距离远,适合数据中心高速互联[29] * 局限性:光子/量子计算未成熟,需进行光电转换,增加复杂性;与非TPU结构连接时需通过以太网等通用协议;在谷歌内部GPU网络中的渗透率约为50%-60%[29][30] * 其他网络创新:开发了ICI(Inter-Chip Interconnect)定制总线协议用于片间互联;T6芯片可实现64颗芯片形成立方体结构高速互联;超级节点/池可容纳多达9,000多颗GPU,大幅提升单节点算力并降低时延[31] 行业竞争格局与自研ASIC进展 * 国际主要玩家出货预期: * 谷歌是最大玩家[26] * Meta明年出货量预计约50万颗[26] * OpenAI计划2026年Q2或Q3开始量产[26] * 英伟达(NVI领域)预计出货20万颗左右[26] * X A2预计2027年推出,初始出货量约20-30万颗[26] * 字节跳动新项目明年启动,年出货量预计50-60万颗[26] * 亚马逊与博通合作开发下一代训练芯片,预计2027年突破,年出货规模可能达100万颗左右[26] * 微软现有设计不成功,可能重新委托博通设计,但短期内无大量出货[27] * 软银、Oracle等计划进入,但大规模出货要等到2027或2028年[27] * 国内自研ASIC进展: * 阿里巴巴和百度较为领先,百度有昆仑之星芯片[26] * 华为有类似英伟达通用AI加速芯片的产品[26] * 主要差距:国内最先进工艺仅达7纳米,且产能有限[26] * 全球AIGC芯片出货预期调整:明年全球AIGC相关芯片总出货量大约在100多万颗,比之前预期的300-400万颗有所减少[27] * 迭代缓慢原因:定制化ASIC芯片设计难度极高,需要设计服务公司与云厂商紧密配合以满足特定需求,实现最佳电路结构契合度不易,早期产品常经历失败[28]