TPU 8t - 财报，业绩电话会，研报，新闻

TPU 8t

搜索文档

格隆汇· 2026-04-23 14:59

公司战略与投资 - 谷歌计划在2025年投入1750亿至1850亿美元的资本开支，用于打造AI智能体时代所需的基础设施 [9] - 公司宣布设立7.5亿美元基金，以支持12万家云合作伙伴开发智能体产品 [10] - 公司与制药企业默克达成长期合作，未来数年默克将向谷歌投入至多10亿美元，用于AI基础设施建设、团队配置及技术授权 [10] 新产品发布 - 谷歌在云年度Next大会上正式推出第八代张量处理单元，并首次将AI训练与推理任务拆分至两款独立芯片：TPU 8t与TPU 8i [2][4] - TPU 8t专为算力密集型训练设计，最多可将9600块芯片组合成系统，每瓦性能较前代提升124%，目标是将前沿模型开发周期从数月压缩至数周 [4] - TPU 8i针对AI智能体实时推理优化，内置384MB SRAM，容量是前代Ironwood芯片的三倍，在高速推理任务中性能提升80% [4] 市场与竞争格局 - 截至2025年底，谷歌云的整体市场份额已攀升至14%，但仍落后于亚马逊与微软 [10] - 公司表示将成为英伟达新一代芯片的首批部署方之一，同时继续为客户提供英伟达系统服务 [6] - 公司认为其平台具备独一无二的优势，拥有其他厂商无法提供的功能，并整合AI产品至“Gemini Enterprise”及升级Vertex AI平台 [9][12] 技术进展与用户 - 谷歌透露，公司目前75%的新增代码由人工智能生成，而去年秋季这一比例仅为50% [11] - 城堡证券、美国能源部下属国家实验室、Anthropic等已成为TPU的核心用户 [6] - 客户反馈显示，谷歌的全套工具组合以及企业数据已存储于谷歌云的优势，使其团队能够比测试过的其他同类产品更快部署AI技术 [12] 行业趋势与展望 - 公司认为行业已迈入“Gemini智能体时代”，讨论焦点从“能否打造智能体”转变为“如何管理数千个智能体” [9] - 市场分析认为，AI的战场正从“谁的模型更聪明”转向“谁能在企业系统里跑得更顺” [10] - 随着AI智能体兴起，为训练和推理需求分别打造专用芯片，将为行业带来显著价值 [5]

半导体行业观察· 2026-04-23 14:46

谷歌TPU设计理念与AI硬件演进 - 公司TPU设计始终围绕可扩展性、可靠性和效率三大支柱[1] - 为应对AI模型从大型语言模型向大规模混合专家模型和推理密集型架构演进，硬件需超越单纯提升FLOPS，满足最新工作负载的特定运算强度[1] - 智能体AI和世界模型的兴起需要能处理长上下文窗口、复杂序列逻辑及模拟预测场景的基础设施[1] - 第八代TPU是应对上述挑战的解决方案，旨在高效训练和运行如Genie 3等世界模型，支持数百万智能体在模拟环境中练习推理[1] 第八代TPU系统概览 - 第八代TPU针对预训练、后训练和实时服务需求分化，引入两个不同系统：TPU 8t和TPU 8i[4] - 两者均为谷歌云AI超级计算机的关键组件，该架构结合硬件、软件和网络，为完整AI生命周期提供支持[4] - 系统集成了基于Arm的Axion CPU接口，以消除数据准备延迟造成的主机瓶颈，确保TPU资源充足[4] TPU 8t：大规模预训练优化 - TPU 8t针对大规模预训练和嵌入密集型工作负载优化，采用3D环面网络拓扑，单个超级节点集成9600个芯片[5] - 核心是SparseCore加速器，专门处理嵌入查找的不规则内存访问模式，避免通用芯片的零操作瓶颈[6] - 通过更均衡的向量处理单元扩展，最小化暴露的向量运算时间，使量化、softmax等运算能与矩阵乘法更好重叠[6] - 引入原生4位浮点运算，将MXU吞吐量提升一倍，同时保持大型模型精度，减少能耗和数据传输[6] - 推出Virgo Network新架构，使TPU 8t训练的数据中心网络带宽提升高达4倍[7] - 芯片间互连带宽提升2倍，原始数据中心网络横向扩展带宽提升高达4倍[9] - Virgo Network能在单个架构中连接超过134,000个TPU 8t芯片，提供高达47 PB/s的无阻塞双向带宽，计算能力超过160万ExaFlops[9] - 引入TPUDirect RDMA和TPU Direct Storage，支持TPU内存与网络接口卡及高速存储的直接数据传输[10] - 结合Managed Lustre 10T和TPUDirect Storage，实现10倍的存储访问速度提升[10] TPU 8i：训练后处理与高并发推理优化 - TPU 8i针对训练后处理和高并发推理优化，采用最高片上SRAM、新的集体加速引擎和Boardfly网络拓扑[13] - 片上SRAM容量比上一代增加3倍，可完全在硅片上容纳更大的KV缓存，减少长上下文解码期间内核空闲时间[13] - 采用集体加速引擎，能以近乎零延迟聚合跨核心结果，显著加速自回归解码和“思维链”处理[14] - 集体操作的片上延迟进一步降低了5倍[14] - 放弃3D环面，采用Boardfly ICI拓扑，通过全连接板聚合，最多可连接1152个芯片，减小网络直径[15] - 在通信密集型工作负载下，Boardfly实现了高达50%的延迟降低[15] - 对于1024芯片配置，Boardfly将网络直径从16跳减少到仅7跳，减少56%[17] - 最终架构可扩展至36个组，通过光路交换机连接，确保任何芯片间通信最大延迟为7跳[19] TPU 8t与TPU 8i规格对比 - 主要工作负载：TPU 8t针对大规模预训练，TPU 8i针对采样、服务和推理[20] - 网络拓扑：TPU 8t为3D环面，TPU 8i为Boardfly[20] - 专用芯片特性：TPU 8t配备SparseCore，TPU 8i配备集体加速引擎[20] - HBM容量：TPU 8t为216 GB，TPU 8i为288 GB[20] - 片上SRAM：TPU 8t为128 MB，TPU 8i为384 MB[20] - 峰值FP4 PFLOPs：TPU 8t为12.6，TPU 8i为10.1[20] - HBM带宽：TPU 8t为6,528 GB/s，TPU 8i为8,601 GB/s，约为TPU 8t的1.3倍[20] - CPU接口：两者均采用Arm Axion[20] 软件技术栈与性能提升 - 第八代TPU基于性能优先的AI软件技术栈构建[22] - 提供对Pallas自定义内核语言的一流支持，使用户能充分发挥TPU 8i CAE和TPU 8t SparseCore性能[24] - 推出TPU的原生PyTorch支持预览版，便于现有PyTorch模型迁移[24] - 在Ironwood上运行的JAX、PyTorch或Keras代码可移植到第八代产品[24] - 与第七代Ironwood TPU相比，TPU 8t在大规模训练上的性价比提高了2.7倍[25] - TPU 8i在大型MoE模型低延迟目标上的性价比比Ironwood TPU提高了80%[25] - 两款芯片的每瓦性能提升高达2倍[25]

半导体行业观察· 2026-04-23 09:43

谷歌发布新一代AI加速器TPU 8系列 - 公司在年度Cloud Next大会上推出两款新的内部AI加速器：TPU 8t（用于训练）和TPU 8i（用于推理）[2] - 公司采取双轨制加速器开发策略，分别针对训练和推理工作负载进行优化设计[2] - 第八代张量处理单元（TPU）的训练速度比去年的Ironwood TPU快2.8倍，且每美元在大语言模型推理方面的性能提高了80%[2] 硬件规格与性能对比 - **TPU 8t（训练芯片）**：配备216 GB高带宽内存，带宽达6.5 TB/s，128 MB片上SRAM，4位浮点计算能力达12.6 petaFLOPS，芯片间带宽高达19.2 Tbps[6] - **TPU 8i（推理芯片）**：拥有10.1 petaFLOPS的FP4计算能力，配备384 MB片上SRAM和288 GB HBM，可提供8.6 TB/s的带宽[9] - 与英伟达Rubin GPU（35 petaFLOPS FP4训练性能，288 GB HBM4，带宽22 TB/s）相比，单个谷歌TPU在纸面算力上较低，但公司强调在超大规模集群扩展能力上更胜一筹[6] 大规模集群与网络架构创新 - TPU 8t使用光路开关技术，可在一个统一模块中连接多达9,600个加速器[7] - 通过新的Virgo网络连接多个pod以支持更大计算域，采用扁平化两层全连接拓扑，每个数据中心最多可连接134,000个TPU，连接多个站点时最多可达100万个TPU[7] - 针对推理工作负载，公司开发了名为Boardfly的网络拓扑，将最大芯片间延迟从3D环面中的16跳减少到仅7跳，以降低运行混合专家或推理模型时的延迟[11] 针对推理工作负载的专门优化 - 推理芯片TPU 8i牺牲部分浮点运算能力，换取更大的SRAM缓存和更快、更高容量的内存池，以应对内存带宽瓶颈[9] - TPU 8i放弃了SparseCores，转而采用集体加速引擎，可将集体通信延迟降低五倍，从而提高经济效益，允许在相同硬件上容纳更多用户[9][11] - 片上SRAM有助于将更多的键值缓存保留在芯片上，减少内核等待数据的时间[9] 生态系统与配套技术 - 公司放弃了x86处理器，转而使用自主研发的基于Arm架构的Axion CPU作为其TPU主机[3] - 开发了能够将10 TB/s聚合数据传输到加速器内存的托管Lustre存储系统[7] - 改进的可靠性、可用性和可维护性能力，结合新的网络和存储技术，据称可将训练优化型TPU的“有效吞吐量”提升至97%[7] 行业背景与竞争格局 - 谷歌并非首家采用训练与推理分离策略的公司，亚马逊网络服务在AI芯片研发早期就已意识到需要针对两者进行优化的加速器[2] - 英伟达的Blackwell Ultra系列GPU也针对AI推理进行了优化，牺牲高精度运算能力，换取了比Blackwell系列提升50%的内存和FP4计算能力[2] - 亚马逊今年早些时候也对Graviton和Trainium 3进行了类似的改进，放弃了用于推理的3D环面网络拓扑[3][12] 产品上市与应用 - 两款TPU 8加速器将于今年晚些时候在Google Cloud Platform上正式推出[12] - 产品既可以作为实例使用，也可以作为该云提供商全栈AI超级计算机平台的一部分，该平台整合了大规模部署或训练大语言模型所需的所有网络、存储、计算和软件[12]

36氪· 2026-04-23 09:41

谷歌发布新一代AI芯片 - 谷歌在Cloud Next 2026大会上发布两款分别针对训练和推理任务优化的AI芯片TPU 8t和TPU 8i，均计划在今年晚些时候推出 [1] - 公司将训练与推理任务拆分为不同处理器，旨在满足AI智能体兴起带来的不同优化需求 [1] - TPU 8t针对AI模型训练优化，据称可将前沿模型开发周期从数月缩短至数周，其性价比比前代提升2.8倍 [1] - TPU 8i更适合推理任务及处理AI智能体 [1] - 谷歌未将新芯片与英伟达产品直接对比，仅表示训练芯片在相同价格下性能是第七代Ironwood TPU的2.8倍，推理芯片性能提升80% [5] - TPU 8i每颗芯片包含384MB SRAM，是前代Ironwood的三倍 [5][6] 云巨头加码自研AI芯片以挑战英伟达 - 以谷歌为首的超大规模云服务商正加码研发AI芯片，挑战英伟达的统治地位 [2] - 谷歌自研芯片历史较长，2015年开始使用自研处理器运行AI模型，2018年开始向云客户出租芯片 [2] - 据分析师估计，谷歌TPU业务连同DeepMind团队的估值约为9000亿美元 [2] - 亚马逊于2018年发布用于AI推理的Inferentia芯片，2020年推出用于AI训练的Trainium芯片 [2] - 亚马逊与Anthropic扩大合作，后者承诺未来十年在AWS上投入超1000亿美元，采购Trainium芯片及数千万颗Graviton CPU核心，锁定最高5吉瓦算力 [2] - Meta公司也在开发AI芯片，上周宣布正与博通合作开发多款芯片 [3] - 微软于今年1月发布了其第二代AI芯片 [4] 英伟达的市场地位与技术进展 - 尽管科技巨头纷纷布局，但目前尚无法撼动英伟达在AI芯片领域的地位 [5] - 英伟达于今年3月公布了即将推出的新一代芯片，该芯片可让模型更快响应用户提问，技术源于其以200亿美元收购芯片初创公司Groq [5] - 英伟达即将推出的Groq 3 LPU芯片将大量采用静态随机存取存储器技术，这一技术也被另一AI芯片制造商Cerebras使用 [5]

Artificial Intelligence

Semiconductors

TPU 8t

TPU 8i

Artificial Intelligence

是说芯语· 2026-04-23 09:15

文章核心观点 - 谷歌发布第八代TPU，首次将训练与推理任务分离至两款专用芯片TPU 8t和TPU 8i，旨在挑战英伟达在AI硬件领域的领导地位，并满足AI智能体时代对基础设施的新需求 [2][6][23] 行业趋势：科技巨头自研AI芯片 - 全球顶尖科技公司正寻求定制化AI半导体开发，以提升效率并满足特定需求 [2] - 苹果在其iPhone芯片中集成神经网络引擎AI组件，微软于2024年1月发布第二代AI芯片，Meta正与博通合作开发多个版本的AI处理器 [2] - 谷歌早在2015年即开始使用自研处理器运行AI模型，并于2018年开始向云客户出租TPU [3] - 亚马逊网络服务于2018年发布用于AI推理的Inferentia芯片，并于2020年推出用于AI模型训练的Trainium处理器 [3] 谷歌TPU业务价值与市场定位 - DA Davidson分析师在2024年9月估计，谷歌TPU业务加上Google DeepMind AI集团的价值约为9000亿美元 [3] - 谷歌是英伟达的大客户，但也向使用其云服务的公司提供TPU作为替代方案 [2] - 目前尚无科技巨头能取代英伟达，谷歌未将新芯片性能直接与英伟达产品比较 [3] 第八代TPU产品概述 - 谷歌推出第八代TPU，包含两款专为训练和推理设计的架构：TPU 8t（训练）和TPU 8i（推理） [6] - 两款芯片旨在为谷歌定制的超级计算机提供动力，支持从模型训练、智能体开发到海量推理的各种应用 [6] - 芯片是与Google DeepMind合作设计，旨在应对最苛刻的AI工作负载并适应不断演进的模型架构 [6] - 两款芯片均将于2024年晚些时候上市 [2][23] TPU 8t（训练芯片）性能与特性 - 性能是2023年11月发布的第七代Ironwood TPU的2.8倍，价格相同 [3] - 旨在将前沿模型开发周期从数月缩短至数周 [11] - 每个Pod的计算性能比上一代产品提升近3倍 [11] - 单个TPU 8t超级芯片组可扩展至9,600个芯片和2 PB共享高带宽内存，芯片间带宽是上一代的两倍 [15] - 架构可提供121 ExaFlops的计算能力 [15] - 集成了速度提升10倍的存储访问，结合TPUDirect将数据直接拉入TPU [15] - 通过全新的Virgo网络、JAX和Pathways软件，可在单个逻辑集群中为多达一百万个芯片提供近乎线性的扩展 [15] - 通过全面的可靠性、可用性和可维护性功能，力求实现超过97%的“有效吞吐量” [12] - 采用第四代液冷技术，每瓦性能比上一代Ironwood提升高达两倍 [20] TPU 8i（推理芯片）性能与特性 - 与上一代产品相比，每美元性能提高了80% [13] - 拥有更高的内存带宽，专为对延迟敏感的推理工作负载设计 [8] - 每个芯片包含384 MB的片上SRAM，是Ironwood芯片容量的3倍 [4][16] - 将288 GB高带宽内存与384 MB片上SRAM结合，使模型活动工作集完全在芯片上，以突破“内存墙” [16] - 对于现代混合专家模型，将互连带宽提高了一倍，达到19.2 Tb/s [16] - 采用全新的片上集体加速引擎，可将片上延迟降低至多5倍 [16] - 采用第四代液冷技术，每瓦性能比上一代Ironwood提升高达两倍 [20] 技术规格对比（与第七代Ironwood TPU） **TPU 8t (训练)** - Pod size: 9,600 (Ironwood: 9,216) [13] - FP4 EFlops per pod: 121 (Ironwood: 42.5) [13] - Bidirectional scale-up bandwidth: 19.2 Tb/s per chip (Ironwood: 9.6 Tb/s per chip) [13] - Scale-out networking bandwidth: 400 Gb/s per chip (Ironwood: 100 Gb/s per chip) [13] **TPU 8i (推理)** - Pod size: 1,152 (Ironwood: 256) [14] - FP8 EFlops per pod: 11.6 (Ironwood: 1.2) [14] - Total HBM capacity per pod: 331.8 TB (Ironwood: 49.2 TB) [14] - Bidirectional scale-up bandwidth: 19.2 Tb/s per chip (Ironwood: 9.6 Tb/s per chip) [14] 系统级优化与设计理念 - 两款芯片首次均运行在谷歌自家基于ARM的Axion CPU主机上，可优化整个系统以提高性能和效率 [19] - 通过全栈协同设计（从芯片、硬件、网络到软件）提高能效和绝对性能 [7] - 网络连接与计算集成在同一芯片上，降低了芯片间数据传输能耗 [20] - 数据中心单位电力下的计算能力比五年前提高了六倍 [20] 客户应用与生态 - 谷歌AI芯片应用加速增长，TPU为包括Gemini在内的领先基础模型提供支持 [5][6] - Citadel Securities开发了基于谷歌TPU的量化研究软件 [5][7] - 美国能源部所有17个国家实验室使用基于TPU构建的AI协同科学家软件 [5] - Anthropic公司已承诺使用数吉瓦的谷歌TPU [5] - 平台原生支持JAX、MaxText、PyTorch、SGLang和vLLM等开发者框架，并提供裸机访问 [19]