不再为告警“救火”:AIOps 如何重塑腾讯音乐的智能运维体系
搜狐财经·2025-12-10 19:37

文章核心观点 腾讯音乐分享了其通过AIOps(智能运维)提升运维质量、效率和降低成本的实践经验,核心在于将AI技术系统性地融入运维的感知、决策和执行环节,以解决告警泛滥、根因定位困难等传统运维挑战,并展望了智能问答、自动化执行和算法升级等未来演进方向 [1][3][35] AIOps实践背景与整体框架 - 公司业务由全民K歌、QQ音乐、酷狗、酷我等多款应用构成,背后有庞大的开发与基础技术团队支持 [2] - 对AI的探索基于质量、效率和成本三要素,旨在找到能产生实际价值的落地场景,避免无意义扩张 [3] - 实践从感知、决策和执行三个层面推进,并系统梳理了以DevOps、SRE和云原生为基础的整体业务架构 [3][6][7] 感知层:优化告警与监控体系 - 过去运维人员每人每月需处理约3000个电话告警,相当于每天超过100个,处于持续“救火”状态 [11] - 通过引入3-Sigma算法,结合同比、环比指标生成相对基准值,并依据波动幅度和深度来智能判定告警,大幅提升了监控有效性 [14][15] - 告警优化效果显著,将用户月度接收到的告警电话数从3000余次减少至200余次 [15] 决策层:智能根因分析与故障定位 - 初期基于大模型构建分析工作流,整合问题分析、插件调用、知识库检索与信息补充,最终生成问答建议与问题定位 [20] - 利用Dify平台简化工作流,灵活选用主流模型,并构建了运维机器人以快速解决问题 [20] - 结合Trace、Metric、Log三要素及业务上报的主被调关系,构建关系网络,实现链路全景分析与上下游影响可视化 [21][22] - AI能对告警自动打标分类,例如业务逻辑错误约占40%,IP聚集问题约占20%,为制定针对性处理策略提供依据 [25] 执行层:自愈与标准化治理 - 对于已明确分类的问题(如容器化场景下的异常),系统可采取自动剔除异常路由、销毁并重建容器等自愈措施,实现快速恢复 [25] - 专家库建设是关键挑战,目前约40%告警为业务逻辑错误,约16%为未知原因,核心在于生产环境服务数量庞大(仅QQ音乐生产服务就超过一万个)且标准化治理不足 [27] - 推进业务体系标准化建设(如返回码规范)和故障复盘报告的标准化,是AI持续学习和有效辅助分析的基础 [27][28] 数据体系与个性化运维 - 构建了完整的数据银行体系,涵盖数据上报、Flink处理、源数据入库到结合OLAP数据库生成结果,并将基础数据与自定义数据统一采集 [30] - 数据与AIOps体系中的监控告警打通,形成整体根因分析能力,例如能定位到海外特定城市运营商的接入问题 [30] - 针对各业务线的定制化告警(如JOOX平台、会员收入告警),通过波动幅度算法和AI进行智能分析,并与基础指标关联,形成数据治理闭环 [28][30][31] AIOps未来演进方向 - 智能问答:将“人找人”协作模式转变为“人找AI,AI找人”,提升衔接效率 [35] - 自动化执行:基于AI分析的明确结论驱动SDK自动化操作,通过提供明确结果和充足数据来抑制幻觉问题,确保输出针对性结论 [35] - 算法升级:计划将当前波动幅度算法与业务特性(如节假日、演唱会直播导致的流量峰值)结合,通过3-SIGMA与特征提取算法提升告警准确性 [35] - 战略融合:采用“一体两翼”战略,以云原生和智能分析为基础,打造更先进、更智能的AIOps体系 [35]