谷歌云平台 (GCP)
搜索文档
谷歌TPU杀疯了,产能暴涨120%、性能4倍吊打,英伟达还坐得稳吗?
机器之心· 2025-12-09 16:41
谷歌TPU产能与商业化战略 - 摩根士丹利大幅上调谷歌TPU产量预测,预计2027年达500万块,2028年达700万块,较此前预测分别上调67%和120% [2] - 未来两年(2027-2028)谷歌计划生产1200万块TPU,而过去四年总产量仅为790万块 [2] - 摩根士丹利测算,谷歌每销售50万块TPU芯片,2027年可贡献约130亿美元收入,并增加每股收益0.40美元 [2] - 谷歌战略包括直接向第三方数据中心销售TPU,作为谷歌云平台业务的重要补充,为广泛商业化做准备 [2] AI算力市场格局演变:从训练到推理 - 到2030年,推理将消耗75%的AI计算资源,形成一个规模达2550亿美元、年复合增长率19.2%的市场 [8] - 分析师估计,到2026年,推理需求将比训练需求高出118倍,并将推动7万亿美元的基础设施投资 [14] - 训练是一次性高成本投入,例如GPT-4训练成本为1.5亿美元,而推理是持续成本,例如OpenAI 2024年推理支出预计达23亿美元,是GPT-4训练成本的15倍 [13][14] - 市场格局正从模型训练(英伟达强项)向模型推理(实时应用)重塑 [8] 谷歌TPU与英伟达GPU的技术与成本对比 - 在大型语言模型等推理任务上,TPU的性价比是英伟达H100 GPU的4倍 [17] - 谷歌最新的Ironwood (v7) TPU速度是v6的4倍,峰值计算能力是v5p的10倍,每代产品带来2-3倍的性价比提升 [17] - TPU能效更高,执行搜索查询时比GPU节能60-65%,在MLPerf基准测试9个推理类别中赢得8个 [17] - TPU v6e按需使用起价为每小时1.375美元,长期合约可降至每小时0.55美元,且无需支付英伟达授权费,而H100成本为每小时2.50美元以上 [17][21] ASIC与GPU的架构差异及竞争态势 - GPU是通用处理器,灵活性高;ASIC是专用集成电路,为单一任务(如张量运算)设计,牺牲灵活性以换取极高效率 [27] - ASIC在能效、延迟、每次操作成本和可扩展性方面具有优势,TPU通过硬件固定操作,相同工作负载下能耗降低60-65% [28] - 未来计算策略预计是混合部署:GPU用于研究和训练,ASIC用于生产推理 [30] - 谷歌云高管预计,仅TPU的采用就可能影响英伟达10%的收入,并对英伟达70-80%的高毛利率构成价格压力 [22] 行业巨头向TPU迁移的案例 - 图像生成公司Midjourney在2024年转向TPU后,推理成本降低65%,从每月200万美元降至70万美元 [34] - Anthropic与谷歌达成价值数百亿美元的交易,承诺使用多达100万个TPU,预计到2026年释放超过1GW计算容量 [35] - Meta作为英伟达最大客户(计划2025年支出720亿美元),正就价值数十亿美元的TPU部署进行深入洽谈,计划从2026年开始通过谷歌云租赁TPU,并在2027年前部署本地TPU [36] - Salesforce和Cohere使用TPU后实现了3倍的吞吐量增长 [36] TPU与GPU的选择决策框架 - 选择TPU的场景:推理成本超过每月5万美元、工作负载为大规模LLM服务或推荐系统、部署于谷歌云平台、重视能源效率、具有可预测的扩展需求 [41][42][43] - 选择英伟达GPU的场景:需要训练灵活性及CUDA生态系统、实施多云战略避免供应商锁定、运行多样化非AI工作负载、每月AI计算预算低于2万美元、尝试尚未针对TPU优化的前沿模型架构 [44][45][46][47][48] - 混合战略建议:部署英伟达H100用于训练和模型开发,使用TPU v6e/v7进行生产推理服务,可节省40-50%的总计算资源 [49] - 大规模TPU迁移通常需要2-6个月,投资回报期约为3-4个月 [49] 市场影响与投资者行为 - 部分精英投资者抛售英伟达股票,例如彼得·蒂尔的对冲基金在2025年第三季度清仓价值约1亿美元的英伟达股票,日本软银清仓3210万股套现58.3亿美元 [65][66] - 投资者担忧包括:GPU供应过剩和资产贬值(每年价值下降30-40%)、TPU竞争导致英伟达利润率压缩、客户多元化投资减少对英伟达收入依赖 [67] - 尽管面临挑战,英伟达仍控制着超过80%的AI芯片市场,其2023年数据中心业务收入达600亿美元 [13][67] TPU面临的挑战与未来竞争 - TPU生态系统与TensorFlow/JAX绑定,灵活性不及英伟达CUDA,本地部署市场处于起步阶段 [69] - 扩展TPU至4096个芯片需要谷歌云投入,混合架构将持续存在 [69] - 新兴竞争者包括亚马逊的Trainium、微软的Maia芯片,但它们在成熟度(TPU已发展至第九代)和规模上尚无法与TPU相比 [69] - 谷歌与博通和台积电合作加速v7芯片生产,预计到2026年第二季度TPU供应将能满足需求 [69] 其他关键问答摘要 - 英伟达即将发布的Blackwell架构承诺提升推理效率,但早期分析表明TPU在大规模纯推理方面仍保持2-3倍的成本优势 [74] - AMD的MI300和英特尔的Gaudi芯片是GPU替代方案,可节省30-40%成本,但效率仍不及TPU [77] - TPU在标准架构上表现出色,对于自定义AI模型,建议先在GPU上原型设计,待架构稳定后再针对TPU优化生产模型 [76]
谷歌(GOOGL)FY25Q2业绩点评及业绩说明会纪要:业绩超一致预期,Tokens消耗量快速增长,大幅上调Capex指引
华创证券· 2025-07-28 12:45
报告行业投资评级 未提及 报告的核心观点 - 谷歌 FY2025Q2 业绩超分析师一致预期,AI 赋能效果显著,AI 业务发展良好,Tokens 消耗量翻倍增长,云积压订单增加,因 AI 业务需求强劲大幅上调 Capex 指引 [1][2][3] 根据相关目录分别进行总结 谷歌 FY2025Q2 业绩情况 总体业绩情况 - FY25Q2 业绩概况:25Q2 营业收入 964 亿美元,同比+14%,净利润 282 亿美元,同比+19%,EPS 为 2.31 美元,同比+22%;谷歌服务 25Q2 营收 825 亿美元,同比+12%;谷歌云 25Q2 营收 136 亿美元,同比+32% [2][6] - AI 业务:当前每月 tokens 消耗量超 980 万亿个,较 25M5 增长近一倍,Gemini 超 4.5 亿用户,25Q2 每日请求量环比+50%以上,AI Overviews 推动搜索量增长超 10%;25Q2 谷歌云积压订单达 1060 亿美元,25H1 签订多笔 10 亿美元订单 [3][13] - 资本开支:25Q2 资本开支 224 亿美元,同比+70%,约 2/3 投资服务器,1/3 投资数据中心和网络设备;公司将 25 年 Capex 指引增至 850 亿美元,预计 2026 年资本支出进一步增加 [3][14] 问答环节 - 关于消费者行为变化:多模态应用是人们适应新场景的早期迹象,YouTube 重视广告和订阅业务,将推行双轨策略 [17][18] - 关于计算资源与搜索增长:产品组合势头强劲致供应紧张,加大投资扩张成效需时间显现;业务目标非付费点击和 CPC,付费点击同比增长 4%,季度间指标受多种因素影响 [19] - 关于代理式搜索与内部 AI 应用:在 Gemini 2.5 系列投入资源,代理功能存在延迟叠加等问题但在改善,预计 2026 年被更广泛采用;正为内部软件工程师推出代理式编程流程,摩擦点在克服 [20][21] - 关于智能眼镜与 AI 模式:设备迭代推动新体验,未来两到三年手机仍是核心;AI 模式适用于信息查询,Gemini 独立应用场景更多样,两者有共同覆盖场景 [21][22] - 关于人才与成本平衡:谷歌有人工智能优秀人才队伍,在吸引和留住人才方面有竞争力;确保投入资源吸引人才,努力抵消成本压力,提升业务效率 [23][24] - 关于 AI Overviews 与云合作:AI Overviews 用户满意度和点击转化率良好,为创新广告格式奠定基础;与 OpenAI 在谷歌云合作,期待拓展关系 [25] - 关于广告环境与双平台策略:二季度广告业务强劲,零售和金融服务等贡献大;现阶段双平台策略合理,未来会不断演进优化 [26] - 关于云业务展望与代理式体验:努力增加产能,各季度增长受产能交付时间影响;代理式体验对部分参与者是机遇,需解决商业模式问题 [27] - 关于 Gemini 订阅与资本回报:Google One 搭载 AI 套餐后用户转化加速,增长势头好;云业务投资能创造价值,客户满意度高、流失率低,投资效率提升,有信心获良好回报 [28]