Workflow
LLaMA 3 8B
icon
搜索文档
数据中心维护成本:人工智能盈利能力的潜在风险(以及如何解决)
GEP· 2025-05-29 08:40
报告行业投资评级 未提及 报告的核心观点 当前AI业务盈利能力的最大威胁是基础设施成本,尤其是数据中心的维护成本;随着生成式AI使用量的爆炸式增长,超大规模企业面临运营成本失控的问题,而维护成本是最可控却最易被忽视的;AI业务的盈利能力取决于超大规模企业能否高效且经济地维护数据中心;企业应将维护作为AI扩展战略的核心,采用智能和预测性策略来管理风险、确保正常运行时间并从基础设施中获取长期价值 [3][4][7] 根据相关目录分别进行总结 新的AI基础设施成本方程 - AI基础设施有三大成本,分别是建设成本、服务成本和维护成本,其中维护成本最可控但常被忽视 [7][9] - 建设成本是对GPU、网络和数据中心建设的高额前期投资,硬件寿命短,年折旧费用高,可达数百亿美元 [9] - 服务成本方面,每次查询的能源和计算成本虽小,但每日数十亿用户使推理成本呈指数级增长 [9] - 维护成本涉及数据中心的HVAC、电力系统、机架和网络等的持续维护,对系统稳定性和性能至关重要,但常被低估 [9] 推理经济学为何重要 - 生成式AI生命周期中,训练是一次性资本投资,推理是经常性运营成本,每次聊天机器人响应、图像生成或文档起草都会产生推理成本,且这些事件资源密集 [8] - 与传统软件请求不同,AI输出不仅具有概率性,还计算量大,给基础设施、延迟阈值和整体系统经济带来持续压力 [10] - 随着生成式AI从前沿创新向企业级基础设施过渡,焦点从模型的强大程度转向其部署和维持的效率,推理经济学愈发重要 [11] AI盈利能力取决于简单方程 - 毛利润=收入 -(每令牌运营成本×令牌数量) - 维护成本,该方程主导着每个超大规模企业的AI业务 [12] - 削减维护成本会增加成本和低效率,维护不善的基础设施会消耗更多能源、导致更多停机时间并提高每令牌运营成本 [13] 对技术领导层的意义 管理生成式AI运营成本 - 推理不仅是技术挑战,也是商业模式问题,运营和维护合作伙伴应按令牌效率评估,而非仅考虑质量和成本 [14] - 多模型路由和基于使用的节流的架构支持至关重要,长尾查询的边际成本影响需评估 [14] - 本地和开源部署在合适环境中更经济,推理经济学应纳入TCO和ROI模型,尤其是内部工具 [14] - 维护成本必须考虑在内,包括模型更新、合规补丁、使用监控和对齐调整等,部分成本随用户数量、监管暴露或保持固定而变化 [14] 优化推理成本的技术 - 量化、蒸馏、缓存和路由等技术可将每次查询的推理成本降低5到20倍,且不显著影响质量,采购团队应确保这些优化策略纳入平台和供应商评估 [15][16] 不同LLM模型的运营成本 - 不同类型的大语言模型(LLM)在推理成本和延迟方面存在差异,开源LLM模型如Mistral和LLaMA 3具有成本优势,尤其是在优化硬件上内部部署时;设备端推理适用于轻量级任务,可完全消除云成本 [17] 管理AI数据中心维护成本 AI数据中心维护的关键领域 - 硬件基础设施维护包括服务器诊断和组件更换、加速器健康监测、内存完整性和存储生命周期管理、固件和BIOS更新、液冷和气冷系统维护、HVAC过滤器更换和气流校准、电源分配单元和不间断电源测试、电池备份和发电机检查等 [19] - 环境系统维护需高精度环境控制,以确保AI工作负载产生的高热量下系统安全运行和长寿 [19] - 网络和连接维护方面,AI工作负载常需紧密耦合节点进行并行处理,连接中断或延迟会大幅降低训练性能 [20] - 软件和配置维护依赖编排软件管理分布式工作负载和遥测管道,需进行监控和管理工具更新、嵌入式系统补丁管理、数据完整性和冗余协议检查等 [24] - AI特定维护活动包括模型训练调度器优化、AI芯片热点检测、基于遥测的性能基线设定等 [25] 何时以及如何外包AI数据中心维护 外包的好处 - 可获得专业人才和专业知识,第三方维护提供商(TPMs)常雇佣精通小众技术的工程师,减少内部培训需求 [32] - 能获得更好的服务级别协议,提供商可提供合同正常运行时间保证、资产跟踪和基于实时遥测的主动更换计划 [32] - 可使用先进诊断工具和基于AI的维护平台,这些能力内部构建成本高 [32] - 减少人员配备需求,缓解熟练劳动力短缺问题,特别是在远程或分布式数据中心环境中 [32] 外包的挑战 - 存在数据安全和合规风险,向外部提供硬件、日志和遥测访问可能引入合规风险 [32] - 与内部系统集成复杂,TPM工具需与内部DCIM、CMDB和编排平台无缝集成,实现难度大且资源消耗多 [32] - 可能导致机构知识流失,过度依赖外部合作伙伴会降低内部对系统行为的理解,限制事件响应能力 [32] - 存在供应商锁定问题,长期合同或专有平台会降低灵活性,难以随技术或业务需求变化而调整 [32] 外包决策建议 - 采购总监和项目经理的外包决策应与业务连续性、网络安全和可扩展性等更广泛目标一致,混合方法(外包常规或非差异化任务,保留战略组件所有权)通常能在控制、效率和弹性之间取得平衡 [31] 第三方维护(TPM)提供商的作用日益增长 TPM提供商的关键价值驱动因素 - 成本效率高,与原始设备制造商(OEM)维护合同相比,TPMs可节省40 - 60%的成本,通过将服务与硬件更换分离并提供定制支持包实现 [35] - 可延长硬件生命周期,通过基于状态的维护而非固定计划的更换,TPMs可将硬件寿命延长12 - 24个月,延迟昂贵的更新周期 [37] - 提供全球支持覆盖,具有跨国业务的TPMs可在边缘和核心位置提供一致的服务水平,适合分散式AI训练和推理工作负载的组织 [37] - 技术增强可预测性,TPMs越来越依赖先进分析,将计划外停机减少30%,提高规划准确性和SLA履行率 [37] - 提供灵活的SLA和支持模型,TPMs可根据业务关键程度提供定制SLA,从关键AI节点的4小时现场响应到非生产环境的下一个工作日支持 [37] - 优化库存和物流,TPMs在高需求区域附近设有战略仓库,实现更快的零件交付,减少内部备件库存成本 [37] TPM提供商的技术支柱 - AI驱动的预测性维护:TPMs使用机器学习模型,根据实时遥测、历史故障日志和环境变量预测组件故障,实现及时组件更换,降低紧急干预成本和运营中断风险,实现更智能的采购预测 [38][42] - 数字孪生技术:将数据中心的物理环境复制到虚拟环境,用于模拟故障预测和维护调度场景,协调维护以减少对性能的影响 [39][40] - 远程监控和自动化平台:云原生平台为TPMs和客户提供集中式仪表板,用于监督基础设施健康,具有预测性警报、自动票务、生命周期跟踪和SLA可视化等功能,减少人工干预,加速修复时间,改善数据驱动决策 [40][44] - 边缘分析和物联网集成:在AI环境中,TPMs部署智能边缘设备,监控实时运营指标,检测异常,触发自主行动或升级到中央系统,避免更广泛的停机 [45][49] - 区块链用于维护记录完整性:提供安全且不可变的分类账,记录所有维护活动、零件更换、固件更新和系统更改,确保审计性、问责性和采购对齐 [46][50] - 增强现实(AR)和远程协助工具:TPMs采用AR头戴设备和移动应用,实现远程支持,提供硬件更换的逐步可视化覆盖、远程诊断和更快的设施人员入职和技能提升 [47][51] 将维护置于AI扩展战略的核心 - 维护成为AI数据中心性能、成本效率和运营弹性的核心驱动力,企业应采用智能和预测性策略管理风险、确保正常运行时间并从基础设施中获取长期价值 [52] AI基础设施维护的未来展望 - 预计TPMs和AI Ops平台将进一步融合,维护协议中的网络安全集成将更紧密,可能出现由AI代理驱动的自主维护系统 [54]