TPU 8t
搜索文档
谷歌“双芯”奇袭英伟达:AI智能体时代到了?
格隆汇· 2026-04-23 14:59
公司战略与投资 - 谷歌计划在2025年投入1750亿至1850亿美元的资本开支,用于打造AI智能体时代所需的基础设施 [9] - 公司宣布设立7.5亿美元基金,以支持12万家云合作伙伴开发智能体产品 [10] - 公司与制药企业默克达成长期合作,未来数年默克将向谷歌投入至多10亿美元,用于AI基础设施建设、团队配置及技术授权 [10] 新产品发布 - 谷歌在云年度Next大会上正式推出第八代张量处理单元,并首次将AI训练与推理任务拆分至两款独立芯片:TPU 8t与TPU 8i [2][4] - TPU 8t专为算力密集型训练设计,最多可将9600块芯片组合成系统,每瓦性能较前代提升124%,目标是将前沿模型开发周期从数月压缩至数周 [4] - TPU 8i针对AI智能体实时推理优化,内置384MB SRAM,容量是前代Ironwood芯片的三倍,在高速推理任务中性能提升80% [4] 市场与竞争格局 - 截至2025年底,谷歌云的整体市场份额已攀升至14%,但仍落后于亚马逊与微软 [10] - 公司表示将成为英伟达新一代芯片的首批部署方之一,同时继续为客户提供英伟达系统服务 [6] - 公司认为其平台具备独一无二的优势,拥有其他厂商无法提供的功能,并整合AI产品至“Gemini Enterprise”及升级Vertex AI平台 [9][12] 技术进展与用户 - 谷歌透露,公司目前75%的新增代码由人工智能生成,而去年秋季这一比例仅为50% [11] - 城堡证券、美国能源部下属国家实验室、Anthropic等已成为TPU的核心用户 [6] - 客户反馈显示,谷歌的全套工具组合以及企业数据已存储于谷歌云的优势,使其团队能够比测试过的其他同类产品更快部署AI技术 [12] 行业趋势与展望 - 公司认为行业已迈入“Gemini智能体时代”,讨论焦点从“能否打造智能体”转变为“如何管理数千个智能体” [9] - 市场分析认为,AI的战场正从“谁的模型更聪明”转向“谁能在企业系统里跑得更顺” [10] - 随着AI智能体兴起,为训练和推理需求分别打造专用芯片,将为行业带来显著价值 [5]
谷歌撰文,剖析最新TPU架构
半导体行业观察· 2026-04-23 14:46
谷歌TPU设计理念与AI硬件演进 - 公司TPU设计始终围绕可扩展性、可靠性和效率三大支柱[1] - 为应对AI模型从大型语言模型向大规模混合专家模型和推理密集型架构演进,硬件需超越单纯提升FLOPS,满足最新工作负载的特定运算强度[1] - 智能体AI和世界模型的兴起需要能处理长上下文窗口、复杂序列逻辑及模拟预测场景的基础设施[1] - 第八代TPU是应对上述挑战的解决方案,旨在高效训练和运行如Genie 3等世界模型,支持数百万智能体在模拟环境中练习推理[1] 第八代TPU系统概览 - 第八代TPU针对预训练、后训练和实时服务需求分化,引入两个不同系统:TPU 8t和TPU 8i[4] - 两者均为谷歌云AI超级计算机的关键组件,该架构结合硬件、软件和网络,为完整AI生命周期提供支持[4] - 系统集成了基于Arm的Axion CPU接口,以消除数据准备延迟造成的主机瓶颈,确保TPU资源充足[4] TPU 8t:大规模预训练优化 - TPU 8t针对大规模预训练和嵌入密集型工作负载优化,采用3D环面网络拓扑,单个超级节点集成9600个芯片[5] - 核心是SparseCore加速器,专门处理嵌入查找的不规则内存访问模式,避免通用芯片的零操作瓶颈[6] - 通过更均衡的向量处理单元扩展,最小化暴露的向量运算时间,使量化、softmax等运算能与矩阵乘法更好重叠[6] - 引入原生4位浮点运算,将MXU吞吐量提升一倍,同时保持大型模型精度,减少能耗和数据传输[6] - 推出Virgo Network新架构,使TPU 8t训练的数据中心网络带宽提升高达4倍[7] - 芯片间互连带宽提升2倍,原始数据中心网络横向扩展带宽提升高达4倍[9] - Virgo Network能在单个架构中连接超过134,000个TPU 8t芯片,提供高达47 PB/s的无阻塞双向带宽,计算能力超过160万ExaFlops[9] - 引入TPUDirect RDMA和TPU Direct Storage,支持TPU内存与网络接口卡及高速存储的直接数据传输[10] - 结合Managed Lustre 10T和TPUDirect Storage,实现10倍的存储访问速度提升[10] TPU 8i:训练后处理与高并发推理优化 - TPU 8i针对训练后处理和高并发推理优化,采用最高片上SRAM、新的集体加速引擎和Boardfly网络拓扑[13] - 片上SRAM容量比上一代增加3倍,可完全在硅片上容纳更大的KV缓存,减少长上下文解码期间内核空闲时间[13] - 采用集体加速引擎,能以近乎零延迟聚合跨核心结果,显著加速自回归解码和“思维链”处理[14] - 集体操作的片上延迟进一步降低了5倍[14] - 放弃3D环面,采用Boardfly ICI拓扑,通过全连接板聚合,最多可连接1152个芯片,减小网络直径[15] - 在通信密集型工作负载下,Boardfly实现了高达50%的延迟降低[15] - 对于1024芯片配置,Boardfly将网络直径从16跳减少到仅7跳,减少56%[17] - 最终架构可扩展至36个组,通过光路交换机连接,确保任何芯片间通信最大延迟为7跳[19] TPU 8t与TPU 8i规格对比 - 主要工作负载:TPU 8t针对大规模预训练,TPU 8i针对采样、服务和推理[20] - 网络拓扑:TPU 8t为3D环面,TPU 8i为Boardfly[20] - 专用芯片特性:TPU 8t配备SparseCore,TPU 8i配备集体加速引擎[20] - HBM容量:TPU 8t为216 GB,TPU 8i为288 GB[20] - 片上SRAM:TPU 8t为128 MB,TPU 8i为384 MB[20] - 峰值FP4 PFLOPs:TPU 8t为12.6,TPU 8i为10.1[20] - HBM带宽:TPU 8t为6,528 GB/s,TPU 8i为8,601 GB/s,约为TPU 8t的1.3倍[20] - CPU接口:两者均采用Arm Axion[20] 软件技术栈与性能提升 - 第八代TPU基于性能优先的AI软件技术栈构建[22] - 提供对Pallas自定义内核语言的一流支持,使用户能充分发挥TPU 8i CAE和TPU 8t SparseCore性能[24] - 推出TPU的原生PyTorch支持预览版,便于现有PyTorch模型迁移[24] - 在Ironwood上运行的JAX、PyTorch或Keras代码可移植到第八代产品[24] - 与第七代Ironwood TPU相比,TPU 8t在大规模训练上的性价比提高了2.7倍[25] - TPU 8i在大型MoE模型低延迟目标上的性价比比Ironwood TPU提高了80%[25] - 两款芯片的每瓦性能提升高达2倍[25]
一颗AI芯片打天下的时代,宣告终结
半导体行业观察· 2026-04-23 09:43
谷歌发布新一代AI加速器TPU 8系列 - 公司在年度Cloud Next大会上推出两款新的内部AI加速器:TPU 8t(用于训练)和TPU 8i(用于推理)[2] - 公司采取双轨制加速器开发策略,分别针对训练和推理工作负载进行优化设计[2] - 第八代张量处理单元(TPU)的训练速度比去年的Ironwood TPU快2.8倍,且每美元在大语言模型推理方面的性能提高了80%[2] 硬件规格与性能对比 - **TPU 8t(训练芯片)**:配备216 GB高带宽内存,带宽达6.5 TB/s,128 MB片上SRAM,4位浮点计算能力达12.6 petaFLOPS,芯片间带宽高达19.2 Tbps[6] - **TPU 8i(推理芯片)**:拥有10.1 petaFLOPS的FP4计算能力,配备384 MB片上SRAM和288 GB HBM,可提供8.6 TB/s的带宽[9] - 与英伟达Rubin GPU(35 petaFLOPS FP4训练性能,288 GB HBM4,带宽22 TB/s)相比,单个谷歌TPU在纸面算力上较低,但公司强调在超大规模集群扩展能力上更胜一筹[6] 大规模集群与网络架构创新 - TPU 8t使用光路开关技术,可在一个统一模块中连接多达9,600个加速器[7] - 通过新的Virgo网络连接多个pod以支持更大计算域,采用扁平化两层全连接拓扑,每个数据中心最多可连接134,000个TPU,连接多个站点时最多可达100万个TPU[7] - 针对推理工作负载,公司开发了名为Boardfly的网络拓扑,将最大芯片间延迟从3D环面中的16跳减少到仅7跳,以降低运行混合专家或推理模型时的延迟[11] 针对推理工作负载的专门优化 - 推理芯片TPU 8i牺牲部分浮点运算能力,换取更大的SRAM缓存和更快、更高容量的内存池,以应对内存带宽瓶颈[9] - TPU 8i放弃了SparseCores,转而采用集体加速引擎,可将集体通信延迟降低五倍,从而提高经济效益,允许在相同硬件上容纳更多用户[9][11] - 片上SRAM有助于将更多的键值缓存保留在芯片上,减少内核等待数据的时间[9] 生态系统与配套技术 - 公司放弃了x86处理器,转而使用自主研发的基于Arm架构的Axion CPU作为其TPU主机[3] - 开发了能够将10 TB/s聚合数据传输到加速器内存的托管Lustre存储系统[7] - 改进的可靠性、可用性和可维护性能力,结合新的网络和存储技术,据称可将训练优化型TPU的“有效吞吐量”提升至97%[7] 行业背景与竞争格局 - 谷歌并非首家采用训练与推理分离策略的公司,亚马逊网络服务在AI芯片研发早期就已意识到需要针对两者进行优化的加速器[2] - 英伟达的Blackwell Ultra系列GPU也针对AI推理进行了优化,牺牲高精度运算能力,换取了比Blackwell系列提升50%的内存和FP4计算能力[2] - 亚马逊今年早些时候也对Graviton和Trainium 3进行了类似的改进,放弃了用于推理的3D环面网络拓扑[3][12] 产品上市与应用 - 两款TPU 8加速器将于今年晚些时候在Google Cloud Platform上正式推出[12] - 产品既可以作为实例使用,也可以作为该云提供商全栈AI超级计算机平台的一部分,该平台整合了大规模部署或训练大语言模型所需的所有网络、存储、计算和软件[12]
剑指英伟达,谷歌重磅发布
36氪· 2026-04-23 09:41
谷歌发布新一代AI芯片 - 谷歌在Cloud Next 2026大会上发布两款分别针对训练和推理任务优化的AI芯片TPU 8t和TPU 8i,均计划在今年晚些时候推出 [1] - 公司将训练与推理任务拆分为不同处理器,旨在满足AI智能体兴起带来的不同优化需求 [1] - TPU 8t针对AI模型训练优化,据称可将前沿模型开发周期从数月缩短至数周,其性价比比前代提升2.8倍 [1] - TPU 8i更适合推理任务及处理AI智能体 [1] - 谷歌未将新芯片与英伟达产品直接对比,仅表示训练芯片在相同价格下性能是第七代Ironwood TPU的2.8倍,推理芯片性能提升80% [5] - TPU 8i每颗芯片包含384MB SRAM,是前代Ironwood的三倍 [5][6] 云巨头加码自研AI芯片以挑战英伟达 - 以谷歌为首的超大规模云服务商正加码研发AI芯片,挑战英伟达的统治地位 [2] - 谷歌自研芯片历史较长,2015年开始使用自研处理器运行AI模型,2018年开始向云客户出租芯片 [2] - 据分析师估计,谷歌TPU业务连同DeepMind团队的估值约为9000亿美元 [2] - 亚马逊于2018年发布用于AI推理的Inferentia芯片,2020年推出用于AI训练的Trainium芯片 [2] - 亚马逊与Anthropic扩大合作,后者承诺未来十年在AWS上投入超1000亿美元,采购Trainium芯片及数千万颗Graviton CPU核心,锁定最高5吉瓦算力 [2] - Meta公司也在开发AI芯片,上周宣布正与博通合作开发多款芯片 [3] - 微软于今年1月发布了其第二代AI芯片 [4] 英伟达的市场地位与技术进展 - 尽管科技巨头纷纷布局,但目前尚无法撼动英伟达在AI芯片领域的地位 [5] - 英伟达于今年3月公布了即将推出的新一代芯片,该芯片可让模型更快响应用户提问,技术源于其以200亿美元收购芯片初创公司Groq [5] - 英伟达即将推出的Groq 3 LPU芯片将大量采用静态随机存取存储器技术,这一技术也被另一AI芯片制造商Cerebras使用 [5]
刚刚,谷歌发布两款芯片,剑指英伟达!
是说芯语· 2026-04-23 09:15
文章核心观点 - 谷歌发布第八代TPU,首次将训练与推理任务分离至两款专用芯片TPU 8t和TPU 8i,旨在挑战英伟达在AI硬件领域的领导地位,并满足AI智能体时代对基础设施的新需求 [2][6][23] 行业趋势:科技巨头自研AI芯片 - 全球顶尖科技公司正寻求定制化AI半导体开发,以提升效率并满足特定需求 [2] - 苹果在其iPhone芯片中集成神经网络引擎AI组件,微软于2024年1月发布第二代AI芯片,Meta正与博通合作开发多个版本的AI处理器 [2] - 谷歌早在2015年即开始使用自研处理器运行AI模型,并于2018年开始向云客户出租TPU [3] - 亚马逊网络服务于2018年发布用于AI推理的Inferentia芯片,并于2020年推出用于AI模型训练的Trainium处理器 [3] 谷歌TPU业务价值与市场定位 - DA Davidson分析师在2024年9月估计,谷歌TPU业务加上Google DeepMind AI集团的价值约为9000亿美元 [3] - 谷歌是英伟达的大客户,但也向使用其云服务的公司提供TPU作为替代方案 [2] - 目前尚无科技巨头能取代英伟达,谷歌未将新芯片性能直接与英伟达产品比较 [3] 第八代TPU产品概述 - 谷歌推出第八代TPU,包含两款专为训练和推理设计的架构:TPU 8t(训练)和TPU 8i(推理) [6] - 两款芯片旨在为谷歌定制的超级计算机提供动力,支持从模型训练、智能体开发到海量推理的各种应用 [6] - 芯片是与Google DeepMind合作设计,旨在应对最苛刻的AI工作负载并适应不断演进的模型架构 [6] - 两款芯片均将于2024年晚些时候上市 [2][23] TPU 8t(训练芯片)性能与特性 - 性能是2023年11月发布的第七代Ironwood TPU的2.8倍,价格相同 [3] - 旨在将前沿模型开发周期从数月缩短至数周 [11] - 每个Pod的计算性能比上一代产品提升近3倍 [11] - 单个TPU 8t超级芯片组可扩展至9,600个芯片和2 PB共享高带宽内存,芯片间带宽是上一代的两倍 [15] - 架构可提供121 ExaFlops的计算能力 [15] - 集成了速度提升10倍的存储访问,结合TPUDirect将数据直接拉入TPU [15] - 通过全新的Virgo网络、JAX和Pathways软件,可在单个逻辑集群中为多达一百万个芯片提供近乎线性的扩展 [15] - 通过全面的可靠性、可用性和可维护性功能,力求实现超过97%的“有效吞吐量” [12] - 采用第四代液冷技术,每瓦性能比上一代Ironwood提升高达两倍 [20] TPU 8i(推理芯片)性能与特性 - 与上一代产品相比,每美元性能提高了80% [13] - 拥有更高的内存带宽,专为对延迟敏感的推理工作负载设计 [8] - 每个芯片包含384 MB的片上SRAM,是Ironwood芯片容量的3倍 [4][16] - 将288 GB高带宽内存与384 MB片上SRAM结合,使模型活动工作集完全在芯片上,以突破“内存墙” [16] - 对于现代混合专家模型,将互连带宽提高了一倍,达到19.2 Tb/s [16] - 采用全新的片上集体加速引擎,可将片上延迟降低至多5倍 [16] - 采用第四代液冷技术,每瓦性能比上一代Ironwood提升高达两倍 [20] 技术规格对比(与第七代Ironwood TPU) **TPU 8t (训练)** - Pod size: 9,600 (Ironwood: 9,216) [13] - FP4 EFlops per pod: 121 (Ironwood: 42.5) [13] - Bidirectional scale-up bandwidth: 19.2 Tb/s per chip (Ironwood: 9.6 Tb/s per chip) [13] - Scale-out networking bandwidth: 400 Gb/s per chip (Ironwood: 100 Gb/s per chip) [13] **TPU 8i (推理)** - Pod size: 1,152 (Ironwood: 256) [14] - FP8 EFlops per pod: 11.6 (Ironwood: 1.2) [14] - Total HBM capacity per pod: 331.8 TB (Ironwood: 49.2 TB) [14] - Bidirectional scale-up bandwidth: 19.2 Tb/s per chip (Ironwood: 9.6 Tb/s per chip) [14] 系统级优化与设计理念 - 两款芯片首次均运行在谷歌自家基于ARM的Axion CPU主机上,可优化整个系统以提高性能和效率 [19] - 通过全栈协同设计(从芯片、硬件、网络到软件)提高能效和绝对性能 [7] - 网络连接与计算集成在同一芯片上,降低了芯片间数据传输能耗 [20] - 数据中心单位电力下的计算能力比五年前提高了六倍 [20] 客户应用与生态 - 谷歌AI芯片应用加速增长,TPU为包括Gemini在内的领先基础模型提供支持 [5][6] - Citadel Securities开发了基于谷歌TPU的量化研究软件 [5][7] - 美国能源部所有17个国家实验室使用基于TPU构建的AI协同科学家软件 [5] - Anthropic公司已承诺使用数吉瓦的谷歌TPU [5] - 平台原生支持JAX、MaxText、PyTorch、SGLang和vLLM等开发者框架,并提供裸机访问 [19]