涉及的行业或公司 * 人工智能基础设施与加速器行业 包括GPU XPU ASIC TPU等异构计算领域[1] * 英伟达公司 股票代码NVDA O 市值约4149 468亿美元[6] * 超大规模云计算厂商 包括Meta 亚马逊AWS 谷歌[1] 核心观点和论据 超大规模厂商的AI基础设施战略 * 所有主要超大规模厂商均已大规模部署英伟达GB200 GB300系统 但同时也在与AMD等其他GPU制造商合作 并开发内部定制芯片 以支持AI工作负载多样性并驱动每瓦最低价格性能[1] * 运行GPU集群与CPU集群是不同的挑战 GPU集群是由许多GPU协同处理单个长时间运行作业的超级计算机[3] * 跨AI工作负载 如LLM训练 LLM推理预填充 LLM推理解码 排名和推荐训练 R&R推理 一种计算尺寸无法满足所有需求 模型尺寸快速演变 基础设施需要在规模 计算 内存和网络元素上进行优化[3] Meta的AI部署与规划 * AI复杂性日益增长 短视频驱动了对AI排名和推荐的需求 导致集群扩展[2] * 生成式AI模型规模急剧扩大 Llama 3使用了24,000个GPU Llama 4使用了约100,000个GPU 未来生成式AI集群预计将驱动巨大的吉瓦级数据中心 例如2026年的Prometheus 1GW+集群和未来几年的Hyperion 5GW集群[2] * Meta已大规模部署GB200和GB300 并与AMD MI300X合作 内部定制ASIC MTIA系列加速器使其能够专注于AI工作负载多样性 并推动强大的路线图以实现其在R&R推理 训练和生成式推理 训练方面的雄心[4] * Meta是开放系统的支持者 如Llama和deepseek模型 Pytorch Ultra Ethernet和Ultra Accelerator Link UAL[4] AWS的AI基础设施重点 * 延迟 计算性能和规模弹性是AI基础设施中最重要的基础[5] * AWS自称是运行GPU的最佳位置 Amazon EC2 P6 B200实例适用于中大型训练和推理 P6e GB200 ultraservers是AWS最强大的GPU产品[5] * AWS Trainium是专为在降低成本的同时提供高性能而构建的 AWS Trn2 Ultraservers为AWS上的生成式AI提供最佳价格性能[5] * AWS将为Anthropic项目Rainier使用Ec2 ultraclusters 以提供520 FP8 exaflops的算力 AWS拥有定制冷板设计以支持Trainium集群[8] 谷歌的AI计算方法与技术 * 随着在更大数据集上训练更强大模型且能力更多 强大的AI爆炸性成本驱动了更高的计算成本[9] * 定制ASIC或TPU是谷歌设计的超级计算基础设施的基础 专为机器学习和AI而设计 以驱动高性能 成本 功率效率和无缝扩展[9] * 谷歌今年推出了第七代Ironwood TPU 其最大pod为9,216个芯片 pod 并且比2024年的Trillium多6倍的HBM 它被用于谷歌内部工作负载 如Gemini AlphaFold Imagen Veo AlphaGo Zero和AlphaChip 芯片设计代理 帮助其设计未来TPU版本 以及GCP中[10] * 谷歌拥有配备TPU的专用数据中心 垂直供电以提高能效 同步高带宽片间互连 ICI 以提高吞吐量 光路交换 OCS 以实现容错和高效调度 以及液冷以最大化系统效率 专用TPU硬件实现了大规模扩展 大量共享内存 成本和功率效率 可靠性 灵活性和弹性[11] 英伟达的投资观点与风险 * 投资评级为买入 目标股价200美元 基于约30倍C26E市盈率 该倍数与3-5年平均水平一致 预期股价回报率为17 1%[6][13] * 下行风险包括 1 游戏领域的竞争可能导致英伟达市场份额流失 进而打压股价 2 新平台采用速度慢于预期可能导致数据中心和游戏销售额下降 3 汽车和数据中心市场的波动性可能增加股票 倍数的波动 4 加密挖矿对游戏销售的影响[14] 其他重要内容 * 花旗环球市场公司持有英伟达100万美元或以上的债务头寸 并在过去12个月内因向英伟达提供投资银行服务而获得报酬 目前或过去12个月内与英伟达存在投资银行业务 证券相关和非证券相关业务关系[18][19][20] * 研究分析师的薪酬由花旗研究管理层和花旗集团高级管理层确定 基于旨在惠及花旗环球市场公司及其关联公司投资者客户的活动和服务 薪酬不与具体交易或建议挂钩[21]
英伟达:GPU 与 XPU- 人工智能基础设施峰会及超大规模企业主题演讲