Workflow
Virgo Network
icon
搜索文档
谷歌 TPUv8t & v8i 的下一代 AI 网络及其对 AI 网络价值链的影响_ Global AI Trend Tracker_ Google’s next-gen AI network for TPUv8t & v8i; Implications for the AI networking value chain
2026-06-01 10:08
涉及的行业与公司 * **行业**:人工智能(AI)硬件、数据中心网络、半导体、光学通信、印刷电路板(PCB)[1][5][36] * **公司**: * **核心公司**:谷歌(Google,GOOG US)及其TPU v8系列芯片(TPU 8t, TPU 8i)[1][5] * **供应链公司**: * **PCB/基板供应商**:胜利精密(Victory Giant, VGT, 300476 CH/2476 HK)[1][35] * **光学通信方案商**:涉及1.6T可插拔光模块、近场封装光学(NPO)、共封装光学(CPO)等[1] * **芯片设计合作伙伴**:博通(Broadcom, AVGO US)参与TPU 8t设计,联发科(MediaTek, 2454 TT)首次参与TPU 8i设计[33] * **光路交换器(OCS)相关**: * **硅光(SiPh)OCS代表厂商**:iPronics(未上市),与Fabrinet(FN US)合作建设产线[31] * **MEMS/DLC/DLBS OCS产业链**:涉及Silex、Lumentum、Coherent、Polatis、光迅科技(Accelink)、中际旭创(Eoptolink)等多家公司[36] 核心观点与论据 1. 谷歌TPU v8架构革新:训练与推理芯片分道扬镳 * **观点**:AI市场趋势是训练与推理的网络架构解耦,以在不同场景下更好地释放性能,同时降低成本与功耗[1] * **论据**: * **TPU 8t(训练芯片)**:专注于大规模预训练性能,采用SparseCore核心和Virgo网络拓扑,引入原生4位浮点(FP4),采用去中介化的TPU Direct技术使内存访问速度比上一代快10倍,宣称训练场景下“每美元性能”最高可提升2.7倍[1][5][8][9] * **TPU 8i(推理芯片)**:专为实时推理和复杂决策设计,资源分配向内存倾斜,配备384MB片上SRAM缓存(是8t的3倍)和288GB HBM内存,采用CAE(集合加速引擎)和新的Boardfly拓扑,旨在解决长上下文推理的延迟瓶颈,CAE将片上集合操作延迟进一步降低5倍[1][5][8][11] * **发展路径**:从TPU v2到v8,单芯片互连(ICI)带宽从800GB/s提升至2400GB/s,光学通道速率从50G提升至400G,集群规模不断扩大[6] 2. 网络拓扑升级驱动光互连需求,特别是光路交换器(OCS) * **观点**:新的网络拓扑(Virgo和Boardfly)为OCS在横向扩展(scale-out)和纵向扩展(scale-up)层面带来增量需求,并可能加速谷歌采用主流光通信解决方案[1][2] * **论据**: * **TPU 8t的Virgo网络**:一种扁平的两层无阻塞拓扑,采用高基数交换机,据称可使数据中心网络(DCN)带宽提升高达4倍,能将超过100万个TPU芯片连接至单个训练集群[2][20] * **TPU 8i的Boardfly拓扑**:一种分层扁平两层架构,将1152个芯片连接在一起,将1024芯片集群的网络直径从16跳减少至7跳,据称可为通信密集型工作负载带来高达50%的延迟改善[2][23][24] * **OCS需求**:Boardfly拓扑在组间通过OCS连接36个组(最多1024个活跃芯片)[2][24],理论上纵向扩展网络对OCS的交换响应速度要求达到纳秒级,硅光(SiPh)基OCS可满足此要求但尚处小批量交付阶段,而MEMS基OCS则通过软件调度弥补延迟[29][31] * **用量估算**:在TPU 8i集群中,预计使用3168条DAC(铜缆)、1440个光模块,以及20个72*72端口或5个288*288端口的OCS[30] 3. AI智能体时代,CPU需求重要性显著提升 * **观点**:随着推理工作负载的指数级增长,CPU可能成为未来运行大型AI集群的关键,CPU与GPU的配比率正在快速上升[3][13] * **论据**: * **配比变化**:根据英特尔CEO在2026年第一季度财报电话会上的评论,CPU与GPU的配比曾为1:8,现已增至1:4,未来可能达到1:1[3][13] * **CPU作用**:推理任务的数据编排和内存管理高度依赖CPU,AI智能体执行读取数据库、运行代码、解析文档等复杂任务所需的“逻辑调度”和“串行处理”是CPU的专长[13] * **谷歌Axion CPU**:在TPU v8系列中首次采用自研的基于ARM架构的Axion CPU作为主控头,有效减少数据预处理延迟,CPU主机数量从“1个CPU配4个TPU”升级为“1个CPU配2个TPU”,每台服务器的CPU主机数量翻倍[3][16][17][32] * **市场预测**:Arm CEO提到,随着AI从“人机交互”转向“智能体化持续工作负载”,数据中心CPU容量将增长超过四倍,到2030年市场规模将超过1000亿美元[32] 4. 供应链影响:TPU需求增长与结构变化带来投资机会 * **观点**:TPU v8训练与推理芯片的分离及强劲需求,可能有助于进一步扩大谷歌的TPU供应链,为相关供应商带来机会[1][34] * **论据**: * **出货量预测**:根据Counterpoint Research预测,TPU v8t和v8e的合计出货量预计在2028年接近500万台,较2026年约40万台的出货量增长超过10倍[34] * **PCB/CCL供应链**:TPU v8系列预计将采用24~28层HDI PCB,使用M8.5等CCL材料,供应商包括胜利精密(VGT)、沪电股份(WUS)、深南电路(ISU)等[35] * **双供应商策略**:TPU 8t由谷歌与博通共同设计,TPU 8i首次由谷歌与联发科共同设计,利用了博通在高性能ASIC设计以及联发科在能效与成本优化方面的优势[33] * **OCS产业链**:报告详细列出了基于MEMS、DLC、DLBS和SiPh等不同技术的OCS产业链全球及中国供应商[36] 其他重要内容 * **性能对比**:TPU 8i相比TPU v7和8t,拥有更大的HBM容量(288GB)和带宽(8.6TB/s),以及更大的片上SRAM(384MB),但峰值FP4算力(10.1 PFLOPs)低于8t(12.6 PFLOPs)[15] * **互连方案变化**:在TPU 8i设计中,铜缆仍是芯片间互连(ICI)层面的主要互连方式,但对OCS的需求从芯片组间的横向扩展延伸至纵向扩展[29] * **研究覆盖与评级**:报告明确覆盖并给予**联发科(2454 TT)**和**胜利精密(2476 HK/300476 CH)**“买入”评级,并给出了目标价和风险评估[40][43][44][47][48][51][52]