Workflow
人工智能数据中心扩容专家讨论核心要点-Hardware & Networking_ Key Takeaways from Expert Discussion on Scaling Up AI Datacenters
twotwo(US:TWOA)2025-11-18 17:41

行业与公司 * 行业为人工智能数据中心硬件与网络设备[1][3] * 会议是与Scale AI的数据科学家Sri Kanajan进行的专家讨论 聚焦于AI数据中心的扩展[1] 核心观点与论据 资本支出向推理计算转移 * 计算资本支出向推理转移的速度快于预期 蒸馏、思维链和多步技术以及推理时优化带来了更大的近期收益 而训练工作的回报正在递减[3] * 专家预计增量计算资源用于推理的份额将在约2027年超过训练 2025-2026年已出现向推理的混合支出[3] * 运营商因成本、供应商广度和更容易扩容而越来越倾向于为推理工作负载使用以太网 同时将InfiniBand集中在训练集群所需的地方[3] 模型效率与成本权衡 * 企业正从使用最大/最好的模型转向通过量化和蒸馏微调更小的模型 愿意为推理工作负载相关成本的大幅降低而接受轻微的质量折衷[3] * 更多AI解决方案正与向量数据库、上下文检索、工作流级集成和实时数据访问一起部署 以释放全部投资回报率[3] 硬件与网络标准化 * 在推理相关网络中出现硬件标准化 训练仍由NVLink和InfiniBand主导 而对于推理ASIC 以太网/PCIe和UALink/UEC正获得份额[3] * 专家预计明年将有更多机架级标准化 白牌服务器势头通过OCP计划扩大 Celestica正在推动较低性能级别交换机的标准化 而Arista的交换机仍受青睐于极高性能场景[3] * 对于超过1.6T的速率 可能需要共封装光学器件 而在400G/800G速率下 许多运营商仍可使用可插拔光学器件满足需求[3] 约束条件从GPU供应转向电力 * GPU交付时间已显著缩短 高带宽内存仍然紧张 但整体供应正在改善 主要约束是电网供电和场地能源 许多数据中心因无法获得足够电力而未充分利用[3] * 这种情况有利于推理 因为训练所需的电力高出数个量级(专家表述为超过5-10倍)且需要同步、同地计算 绝大多数训练仍在单个数据中心内进行[3][4] * 推理通过缓存、嵌入和边缘友好数据存储将计算分区跨服务器或集群 能更好地容忍跨地域扩展[4] GPU资产寿命与存储架构 * GPU资产寿命正在变长 买家现在计划GPU使用寿命为五到六年 高于之前的大约四年 随着新一代GPU上市 资产从训练转移到较低优先级训练任务 再到推理 最后到内部工作负载[5] * 存储继续是混合决策 HDD在成本上仍保持领先 闪存主导训练和密集型推理需求 而硬盘仍适用于不常访问的数据集、日志记录和嵌入 其中每太字节成本至关重要[5] * HDD方面的进步 包括HAMR技术 正在帮助HDD在闪存使用扩大的情况下保持成本领先地位[5] 其他重要内容 潜在受益公司 * Broadcom被视为向推理转移的主要受益者 因其在定制ASIC方面的工作 包括与Google、亚马逊和Meta的合作[5] * Marvell也应受益于更标准化的推理工作负载和集群更倾向于以太网/PCIe而非NVLink/InfiniBand[5] * Celestica可能随着白牌服务器在OCP设计中的广泛采用而扩大份额[5] * Arista将继续主导最高性能的训练网络 但向推理中以太网的混合转移可能会驱动更广泛的受益领域[5] 分析师覆盖范围 * 报告作者Samik Chatterjee覆盖的股票包括Arista、Celestica等多家硬件与网络公司[10]