合作公告 - 领先的AI云公司Nebius (NASDAQ: NBIS) 已选择自主AI SRE公司Komodor,以加速其超大规模AI云环境中的Kubernetes故障排除 [1] - Nebius正在构建一个覆盖从数据、模型训练到生产部署的完整AI生命周期的全栈平台,需要一种解决方案来自动化应对其环境中的可靠性和性能挑战 [2] 解决方案与价值 - Komodor为Nebius提供跨云原生基础设施的统一可见性,持续关联其超大规模GPU云特有的拓扑、配置变更、遥测数据、自动扩缩行为以及广泛的自定义资源定义(CRDs) [3] - Komodor平台旨在适应高度专业化的云原生环境,无缝支持Nebius的高级抽象和自定义组件,展现了在行业最复杂AI架构之一中运行所需的灵活性 [3] - 通过其专门构建的Klaudia Agentic AI,Komodor自主调查生产事件,关联分布在集群舰队中的信号,以快速提供精确的根本原因分析 [4] - Komodor配置了来自Nebius Kubernetes环境的相关、已批准的操作上下文,能够适应该公司独特的基础设施模式,从而为超大规模GPU操作提供更快、更准确的修复指导 [5] 客户需求与评价 - Nebius大规模运营AI云基础设施,正常运行时间和性能至关重要,需要在复杂的Kubernetes环境中进行快速、有充分依据的事件调查 [6] - Komodor帮助Nebius团队关联关键信号,缩短从现象到根本原因的路径,同时融入其现有的SRE工作流程 [6] - Nebius AI Cloud是行业中最复杂的云原生基础设施之一,包含高级编排层、ClusterAPI驱动的舰队管理、自定义资源以及GPU密集型工作负载 [6] 行业趋势与影响 - AI工作负载放大了操作复杂性,SRE团队手动管理可靠性和成本的负担变得难以承受 [4] - 随着全球对GPU支持的AI基础设施需求加速增长,运营超大规模AI原生云的要求正在重新定义SRE的职责,迫使团队同时平衡性能、可靠性和经济性 [9] - Nebius采用Komodor反映了行业更广泛的转变,即朝着在云原生运营中实现自主AI驱动的可靠性和成本控制方向发展 [9] 公司背景 - Komodor是面向云原生应用的领先自主AI SRE(站点可靠性工程)平台 [10] - 企业依赖Komodor的Agentic AI驱动的自主自愈和成本优化能力,以大幅降低平均解决时间(MTTR)、减少TicketOps、主动预防事件并削减云支出 [10] - 该公司已从美国和EMEA的领先投资者处筹集了9000万美元的风险投资 [10]
Komodor Autonomous AI SRE Platform Selected by Nebius to Support Reliability Operations