谷歌TPU业务战略转变 - 谷歌母公司Alphabet正与Meta Platforms等公司洽谈,计划向客户直接出售其Tensor AI芯片(TPU),供客户在其自有数据中心使用,此举将加剧与英伟达的竞争[1] - Meta Platforms考虑从2027年开始在其数据中心购买价值数十亿美元的谷歌TPU,并最早从2026年起从谷歌云租用TPU容量,而Meta此前主要依赖英伟达GPU满足AI需求[1] - 此合作对谷歌及其AI芯片设计合作伙伴博通而言是一个巨大的新市场,但可能对英伟达和AMD的销售及定价权构成重大竞争威胁[1] 市场反应与股价表现 - 受相关报道影响,谷歌股价在盘后交易中上涨超过2%,博通股价上涨近2%[1] - 在常规交易时段,博通股价飙升11.1%至377.96美元,谷歌股价上涨6.3%至318.58美元,创下新高[2] - 作为对比,英伟达股价在盘后交易中下跌近2%,AMD股价在尾盘下跌近2%[2] 谷歌TPU v7(Ironwood)技术规格与性能 - 谷歌TPU v7(代号Ironwood)加速器每个芯片拥有4.6 petaFLOPS的密集FP8性能,略高于英伟达B200的4.5 petaFLOPS,略低于其更强大的GB200/GB300加速器的5 petaFLOPS[3] - 该计算平台配备192 GB的HBM3e内存,提供7.4 TB/s的带宽,与英伟达B200(192GB HBM,8TB/s内存带宽)处于同一水平[4] - Ironwood是谷歌功能最强大的TPU,其性能是TPU v5p的10倍,是TPU v6e "Trillium"加速器的4倍,性能大致与英伟达和AMD的最新芯片相当[4] 谷歌TPU的扩展架构与可靠性 - 谷歌TPU以POD形式提供,单个Ironwood模块可通过专有互连网络连接多达9216个独立芯片,总双向带宽达9.6 Tbps[5] - 这种庞大互连架构使9216颗芯片能共享1.77PB的高带宽内存,谷歌指出其Ironwood Pods的FP8 ExaFLOPS性能是其最接近竞争对手的118倍[6] - 系统采用光路交换技术实现动态可重构架构,液冷系统自2020年以来整体正常运行时间保持约99.999%的可用性,相当于每年停机时间不到6分钟[6] 谷歌与英伟达的架构差异 - 谷歌采用3D环面拓扑结构连接芯片,无需使用高性能数据包交换机,旨在减少延迟和功耗,但可能随着规模扩大增加芯片间通信跳数[7] - 英伟达为其机架级平台选择大型、相对扁平的交换机拓扑结构,确保GPU间通信距离最多不超过两跳[7] - 哪种方案更优取决于工作负载类型,某些负载受益于大型多跳拓扑,另一些则在较小规模交换式计算域上表现更佳[8] 谷歌自研CPU Axion - 谷歌正在部署其首款基于Armv9架构的通用处理器Axion,旨在比现代x86 CPU提升高达50%的性能和高达60%的能效,比云端最快通用Arm实例性能高出30%[9] - 该战略体现未来计算基础设施需要专用AI加速器与高效通用处理器协同,TPU负责AI模型运行,Axion级处理器负责数据摄取、预处理、应用逻辑等任务[10] - 早期客户反馈显示可衡量经济效益,Vimeo报告核心转码工作负载性能提升30%,ZoomInfo表示数据处理管道性价比提升60%[10] 谷歌软件生态系统与效率提升 - 谷歌将Ironwood和Axion集成到其"AI超级计算机"系统中,IDC 2025年10月研究显示,该系统的客户平均实现353%的三年投资回报率,降低28%的IT成本,提高55%的IT团队效率[11] - 软件增强功能包括谷歌Kubernetes Engine为TPU集群提供高级维护和拓扑感知功能,开源MaxText框架支持高级训练技术[11] - 谷歌推理网关通过前缀缓存感知路由等技术,能将首次令牌延迟降低96%,并将服务成本降低高达30%[11] 行业影响与客户采纳 - 谷歌在运行大规模计算架构方面经验丰富,其TPU v4 POD最大支持4096芯片,v5p提升至8960芯片,Ironwood进一步将POD数量提升至9216芯片[13] - 大型模型构建者如Anthropic已宣布计划利用多达一百万个TPU来训练和运行其下一代Claude模型[13] - 行业观点认为,谷歌、亚马逊等公司的芯片在硬件能力和网络可扩展性上正迅速赶上英伟达,软件往往成为决定性因素[14]
谷歌最强芯片,终于开卖
半导体芯闻·2025-11-25 18:58