第八代张量处理单元(TPU)
搜索文档
谷歌“双芯”奇袭英伟达:AI智能体时代到了?
格隆汇· 2026-04-23 14:59
公司战略与投资 - 谷歌计划在2025年投入1750亿至1850亿美元的资本开支,用于打造AI智能体时代所需的基础设施 [9] - 公司宣布设立7.5亿美元基金,以支持12万家云合作伙伴开发智能体产品 [10] - 公司与制药企业默克达成长期合作,未来数年默克将向谷歌投入至多10亿美元,用于AI基础设施建设、团队配置及技术授权 [10] 新产品发布 - 谷歌在云年度Next大会上正式推出第八代张量处理单元,并首次将AI训练与推理任务拆分至两款独立芯片:TPU 8t与TPU 8i [2][4] - TPU 8t专为算力密集型训练设计,最多可将9600块芯片组合成系统,每瓦性能较前代提升124%,目标是将前沿模型开发周期从数月压缩至数周 [4] - TPU 8i针对AI智能体实时推理优化,内置384MB SRAM,容量是前代Ironwood芯片的三倍,在高速推理任务中性能提升80% [4] 市场与竞争格局 - 截至2025年底,谷歌云的整体市场份额已攀升至14%,但仍落后于亚马逊与微软 [10] - 公司表示将成为英伟达新一代芯片的首批部署方之一,同时继续为客户提供英伟达系统服务 [6] - 公司认为其平台具备独一无二的优势,拥有其他厂商无法提供的功能,并整合AI产品至“Gemini Enterprise”及升级Vertex AI平台 [9][12] 技术进展与用户 - 谷歌透露,公司目前75%的新增代码由人工智能生成,而去年秋季这一比例仅为50% [11] - 城堡证券、美国能源部下属国家实验室、Anthropic等已成为TPU的核心用户 [6] - 客户反馈显示,谷歌的全套工具组合以及企业数据已存储于谷歌云的优势,使其团队能够比测试过的其他同类产品更快部署AI技术 [12] 行业趋势与展望 - 公司认为行业已迈入“Gemini智能体时代”,讨论焦点从“能否打造智能体”转变为“如何管理数千个智能体” [9] - 市场分析认为,AI的战场正从“谁的模型更聪明”转向“谁能在企业系统里跑得更顺” [10] - 随着AI智能体兴起,为训练和推理需求分别打造专用芯片,将为行业带来显著价值 [5]
刚刚,谷歌发布两款芯片,剑指英伟达!
是说芯语· 2026-04-23 09:15
文章核心观点 - 谷歌发布第八代TPU,首次将训练与推理任务分离至两款专用芯片TPU 8t和TPU 8i,旨在挑战英伟达在AI硬件领域的领导地位,并满足AI智能体时代对基础设施的新需求 [2][6][23] 行业趋势:科技巨头自研AI芯片 - 全球顶尖科技公司正寻求定制化AI半导体开发,以提升效率并满足特定需求 [2] - 苹果在其iPhone芯片中集成神经网络引擎AI组件,微软于2024年1月发布第二代AI芯片,Meta正与博通合作开发多个版本的AI处理器 [2] - 谷歌早在2015年即开始使用自研处理器运行AI模型,并于2018年开始向云客户出租TPU [3] - 亚马逊网络服务于2018年发布用于AI推理的Inferentia芯片,并于2020年推出用于AI模型训练的Trainium处理器 [3] 谷歌TPU业务价值与市场定位 - DA Davidson分析师在2024年9月估计,谷歌TPU业务加上Google DeepMind AI集团的价值约为9000亿美元 [3] - 谷歌是英伟达的大客户,但也向使用其云服务的公司提供TPU作为替代方案 [2] - 目前尚无科技巨头能取代英伟达,谷歌未将新芯片性能直接与英伟达产品比较 [3] 第八代TPU产品概述 - 谷歌推出第八代TPU,包含两款专为训练和推理设计的架构:TPU 8t(训练)和TPU 8i(推理) [6] - 两款芯片旨在为谷歌定制的超级计算机提供动力,支持从模型训练、智能体开发到海量推理的各种应用 [6] - 芯片是与Google DeepMind合作设计,旨在应对最苛刻的AI工作负载并适应不断演进的模型架构 [6] - 两款芯片均将于2024年晚些时候上市 [2][23] TPU 8t(训练芯片)性能与特性 - 性能是2023年11月发布的第七代Ironwood TPU的2.8倍,价格相同 [3] - 旨在将前沿模型开发周期从数月缩短至数周 [11] - 每个Pod的计算性能比上一代产品提升近3倍 [11] - 单个TPU 8t超级芯片组可扩展至9,600个芯片和2 PB共享高带宽内存,芯片间带宽是上一代的两倍 [15] - 架构可提供121 ExaFlops的计算能力 [15] - 集成了速度提升10倍的存储访问,结合TPUDirect将数据直接拉入TPU [15] - 通过全新的Virgo网络、JAX和Pathways软件,可在单个逻辑集群中为多达一百万个芯片提供近乎线性的扩展 [15] - 通过全面的可靠性、可用性和可维护性功能,力求实现超过97%的“有效吞吐量” [12] - 采用第四代液冷技术,每瓦性能比上一代Ironwood提升高达两倍 [20] TPU 8i(推理芯片)性能与特性 - 与上一代产品相比,每美元性能提高了80% [13] - 拥有更高的内存带宽,专为对延迟敏感的推理工作负载设计 [8] - 每个芯片包含384 MB的片上SRAM,是Ironwood芯片容量的3倍 [4][16] - 将288 GB高带宽内存与384 MB片上SRAM结合,使模型活动工作集完全在芯片上,以突破“内存墙” [16] - 对于现代混合专家模型,将互连带宽提高了一倍,达到19.2 Tb/s [16] - 采用全新的片上集体加速引擎,可将片上延迟降低至多5倍 [16] - 采用第四代液冷技术,每瓦性能比上一代Ironwood提升高达两倍 [20] 技术规格对比(与第七代Ironwood TPU) **TPU 8t (训练)** - Pod size: 9,600 (Ironwood: 9,216) [13] - FP4 EFlops per pod: 121 (Ironwood: 42.5) [13] - Bidirectional scale-up bandwidth: 19.2 Tb/s per chip (Ironwood: 9.6 Tb/s per chip) [13] - Scale-out networking bandwidth: 400 Gb/s per chip (Ironwood: 100 Gb/s per chip) [13] **TPU 8i (推理)** - Pod size: 1,152 (Ironwood: 256) [14] - FP8 EFlops per pod: 11.6 (Ironwood: 1.2) [14] - Total HBM capacity per pod: 331.8 TB (Ironwood: 49.2 TB) [14] - Bidirectional scale-up bandwidth: 19.2 Tb/s per chip (Ironwood: 9.6 Tb/s per chip) [14] 系统级优化与设计理念 - 两款芯片首次均运行在谷歌自家基于ARM的Axion CPU主机上,可优化整个系统以提高性能和效率 [19] - 通过全栈协同设计(从芯片、硬件、网络到软件)提高能效和绝对性能 [7] - 网络连接与计算集成在同一芯片上,降低了芯片间数据传输能耗 [20] - 数据中心单位电力下的计算能力比五年前提高了六倍 [20] 客户应用与生态 - 谷歌AI芯片应用加速增长,TPU为包括Gemini在内的领先基础模型提供支持 [5][6] - Citadel Securities开发了基于谷歌TPU的量化研究软件 [5][7] - 美国能源部所有17个国家实验室使用基于TPU构建的AI协同科学家软件 [5] - Anthropic公司已承诺使用数吉瓦的谷歌TPU [5] - 平台原生支持JAX、MaxText、PyTorch、SGLang和vLLM等开发者框架,并提供裸机访问 [19]