行业与公司 * 纪要涉及AI云市场、计算基础设施背景以及相关的半导体和IT硬件行业[1] * 核心讨论围绕云计算服务提供商Lambda公司展开 Lambda是一家私有公司 业务模式是租赁NVIDIA GPU并以多种产品形式转售给市场 客户范围从单个开发者、大学到超大规模云服务商[20] * 行业主要参与者包括超大规模云服务商(如AWS、Microsoft Azure、Google Cloud)、新云服务商(Neoclouds 如Lambda、Coreweave、Nebius)以及服务器原始设备制造商(OEMs 如Dell、Super Micro)[20][21] 核心观点与论据 新云服务商(Neoclouds)的角色与驱动力 * 超大规模云服务商是新云服务商的重要客户 新云服务商凭借速度和灵活性帮助其填补产能缺口 例如在预测不足、面临内部审批延迟或难以平衡内部需求与客户需求时 新云服务商通常能在60天内部署产能[2][23] * 与超云合作允许超大规模云服务商将资本支出风险转移出自身资产负债表 并愿意为此支付溢价 NVIDIA也积极扶持新云生态系统 提供DGX云合同 并在计算供应短缺时将客户导向新云[2][26] * 企业AI采用仍然较慢 但企业正在基于现有的前沿模型开发自己的生成式AI封装 它们主要利用超大规模云服务商的AI基础设施 部分企业也开始自建产能[3][23] 供应链瓶颈与约束 * GPU交货期约为8-16周 行业已习以为常 但更大的瓶颈在于网络、数据中心空间和电力[4][29][30] * 网络产品(交换机、收发器)供应受限 需要提前4到6个月采购 数据中心可用性极低(低于2%) 产能签约已排到2026-2028年 电力供应严重受限[4][9][31][32] * 电力瓶颈的短期解决方案包括天然气和离网发电 长期看核能是答案但需要多年时间[4][35][36] 技术格局与供应商评估 * Lambda当前部署全部基于NVIDIA 因其在整个堆栈(硬件性能、软件能力、网络解决方案)占据主导地位 NVIDIA在总拥有成本(TCO)方面远优于竞争对手 领先竞争对手几年[6][39] * Google的TPU使用在增加 其JAX软件受部分人青睐 训练成本具有竞争力 但NVIDIA芯片在推理方面表现更优 AMD因其ROCm软件劣势而落后[6][38][40] * 在服务器OEM中 Dell以高质量服务器和内部金融服务(Dell Financial Services)取胜 但价格最高 Super Micro以快速产品发布、精益运营和有竞争力的价格巩固市场领导地位 HPE被视为可靠但缺乏创新 是份额捐赠者[8][47][50] 业务模式与成本结构 * 新云服务商主要与OEM合作而非ODM 因OEM在标准参考架构上提供更快的交货时间和更好的支持 尽管ODM价格可能更低[7][33][34] * 尽管DRAM、SSD和HDD价格显著上涨 但新云服务商可以将增加的成本直接转嫁给客户 由于需求强劲 客户非常愿意支付更高价格[9][46] * 典型合同期限为3到6年 常见的折旧计划是6年 但由于保修条款(通常至少5年) GPU的有效使用寿命可延长至7-8年[5][42][43] 市场动态与投资主题 * 当前工作负载比例约为75%训练 25%推理 但随着新云服务商将更多产能签约给超大规模云服务商(主要用于推理) 这一比例将发生显著变化[61][62][64] * 每个千兆瓦(Gigawatt)数据中心容量的建造成本约为50到60亿美元 其中数据中心液冷改造是一项巨大的前期成本 约为每兆瓦250万至450万美元[59][60] 其他重要内容 * 对于未来型号(如Feynman)价格未知的长期合同 使用基于现有GPU锚定价格和多个变量(如运营支出、额外资本支出)的公式来最终确定价格 这是一种成本加成但独特的定价模式[56][57] * 关于NVIDIA与云服务商之间"循环性"的担忧 发言人认为这在资本密集型行业并非新概念 并指出NVIDIA有SEC指导方针限制其可租回的单芯片产能比例(例如不超过三分之二) 其最终目标是推动新云服务商尽快上市以解决信用风险问题[54][55]
人工智能云市场:解读算力背景-对话 Lambda 高管-The AI Cloud Market Making sense of the compute backdrop - aconversation with a Lambda executive