Workflow
Electrical & Global Software_ How Shifting From Training To Inferencing Impacts Data Center Investment - Expert Takeaways
2025-02-21 01:54

纪要涉及的行业和公司 - 行业:美国机械、全球软件、数据中心建设、电气设备、能源 - 公司:ETN(Eaton Corp PLC)、HUBB(Hubbell Incorporated)、PWR(Quanta Services Inc)、MSFT(Microsoft Corp)、ORCL(Oracle Corp)、AWS、Google、Meta、ABB、Eaton、Schneider、Siemens、AMD、Nvidia、Intel 纪要提到的核心观点和论据 数据中心建设 - 建设时间:40 - 50兆瓦的商业云数据中心,从破土动工到首次通电需10 - 15个月,受区域因素和许可差异影响 [11] - 建设布局:超大规模企业和专业AI供应商建设的数据中心布局相似,都有数据机房、相邻的机械室、电气室和室外发电机 [12] - 采购时间线:中压变压器需提前12 - 24个月订购,发电机提前12 - 15个月,开关柜提前60周;电源供应需提前3 - 5年与当地或区域公用事业公司确定PPA [13][14] - 交付顺序:建设的前4 - 6个月进行钢结构搭建和混凝土浇筑,之后开始交付和安装设备 [16] - 类型占比:数据中心类型(云、AI训练、AI推理)占比每天都在变化,取决于数据中心提供商的库存和业务需求 [16] 训练与推理数据中心差异 - 物理特征:训练集群机架密度通常是推理的2倍,规模更大(数千个机架),推理集群规模较小(8、16或24个机架);训练可在任何地方进行,推理需靠近用户和数据;总功率需求相同,但训练功率波动大,推理稳定;电气设备需求相同,但推理的UPS强度更高;热管理设备需求和CAPEX/MW相同 [3] - 硬件配置:硬件基本相同,主要是软件配置不同导致功能差异;推理集群使用的GPU数量和机架数量少于训练集群 [18] - 成本差异:从资本支出角度看,训练和推理数据中心成本差异不大,主要取决于内部配置 [26] DeepSeek相关 - 效率存疑:对DeepSeek训练效率的说法持高度怀疑态度,原因包括超大规模企业有4年领先优势、缺乏第三方验证结果以及训练数据不足 [3] - 市场影响:假设DeepSeek有效,市场规模将更快扩大,需求弹性大,更多客户将进入AI领域,不会改变AI资本支出的形态 [29][31] 超大规模企业资本支出 - 支出规模:2025年,前五大超大规模企业预计在数据中心上的支出为2500 - 3000亿美元,主要用于设备采购 [39] - 支出时间:2025年的投资可能用于2027 - 2028年投入使用的硬件和建筑 [39] - 电气占比:电气组件约占AI数据中心建设项目总成本的30% - 35% [44] 电源相关 - 电源约束:未来五年,电力供应将成为数据中心提供商的一大挑战,建设和扩建电厂困难,审批和采购时间长 [51] - 电源选择:未来天然气和小型模块化反应堆(SMR)将成为重要的电源选择,天然气将更快普及,因其监管和许可相对容易,市场供应更充足 [51][52] - 备用电源:大多数数据中心提供商采用一对一的备用电源配置,主要是柴油发电机;多元化电源来源以实现冗余 [58] 电气设备和承包商 - 交货时间:电气设备交货时间较三到六个月前略有缩短,原因是买方多元化供应商和供应商提高产能 [59] - 供应商选择:超大规模企业对尝试新的电气设备供应商持谨慎态度,通常会先进行一到两年的测试,新供应商进入市场至少需要三年 [64] 投资建议 - 电气基础设施:未来几年出现重大市场下滑的可能性较小,ETN、HUBB和PWR的股票自Deepseek消息传出后下跌约15%,市盈率下调5倍,仍建议买入 [4][7] - 全球软件:符合云与AI数据中心的论点,包括推理将与客户生产数据混合、数据中心建设早于云容量增加;支持整体AI推理论点;认为训练目前在Oracle的OCI收入中占比较小,但将随着与OpenAI和Stargate的协议增加 [8] 其他重要但可能被忽略的内容 - 数据中心使用寿命:建筑物外壳可使用20 - 30年,机械系统约20年,电气系统15 - 20年,但AI数据中心的使用寿命尚未得到充分验证 [41] - 冷却方式:冷却方式不断变化,目前处于风冷式冷水机组的竞争阶段,部分超大规模企业采用拆除更换或迭代升级的方式 [43] - 地区差异:美国南部各州(如得克萨斯州、内华达州、亚利桑那州)更适合建设数据中心,因其土地充足、公用事业灵活、对替代能源接受度高;欧洲电力紧张,亚太和北美地区增长较快 [49][50] - GPU使用:推理集群未使用ASIC,主要使用与训练集群相同的GPU(如H100、H200、GB200),市场上GPU使用较为多样化,并非仅依赖Nvidia [65][66] - 机架密度:机架密度上限取决于冷却能力,目前标准为40 - 60千瓦/机架,未来一到两年可能达到兆瓦级 [76]