Workflow
可观测平台
icon
搜索文档
三大头部互联网企业交锋,AI时代可观测边界出现了吗?
36氪· 2025-10-22 17:31
AI与可观测技术的双向赋能 - AI显著改变数据提取方式,在上下文充足时大模型自动生成SQL、配置大盘的准确率可达80%-90%,甚至超过不熟悉SQL的工程师[1] - AI推动可观测从“给人看”转向“给AI看”,未来关键是如何以结构化方式组织数据供大模型高效理解与利用[2] - 可观测技术反哺AI系统,需应对AI调用成本带来的海量trace数据存储需求,以及诊断AI工作流中问题根源(如RAG环节文档检索正确性、幻觉产生阶段)的新挑战[2] AIOps实施路径与能力演进 - LLM为可观测领域提供通用“大脑基座”,其多模态理解与融合能力使其成为天然的“六七十分”基础能力,显著加速可观测场景演示原型的构建[3] - LLM引入使得从告警全生命周期进行整体优化成为可能,通过Agent架构将LLM作为决策“大脑”,观测数据与小模型作为“工具手”,实现告警的逐条处理与人机协同[4] - 传统AIOps实施需从零开始结合场景目标、收集清洗数据、建模训练,而LLM将实施重点转变为如何为其提供更全面、高质量的上下文信息[3] 大模型与传统算法的关系 - 传统算法在确定性、响应速度(毫秒级)、资源消耗和可控性方面具有优势,生产系统仍大规模使用时序异常检测等成熟小模型算法[9] - 大模型带来质变在于其学习与提效能力,能同时理解指标曲线、日志文本、用户反馈等多模态信息并建立关联,具备传统算法难以实现的“融会贯通”能力[10] - 大模型无法取代传统算法,线上约80%-90%的场景由传统算法和CPU算子高效处理,基于规则的方法可拦截或自愈系统60%-70%以上的异常[12] - 通用大模型在可观测领域需进行领域微调或强化学习,例如根因排序任务中开源模型准确率仅30%-40%,经专门优化后可提升至80%-90%以上[13] AI Agent能力评估与分级 - AI Agent智能衡量需区分通用能力(参考MMLU、MATH等基准)和专属实战能力,后者在解决公司内部复杂非标准化问题时要求更高[6] - AI Agent在观测领域可粗略分为三级:L1+(单点增强)、L2(自主解决问题)、L3(自主学习并生成工具补齐排障流程)[7] - 实验室评测存在局限性,例如SWE Bench Verified仅约500道题目易被“背熟”,真实生产系统复杂度(上百个服务)远超实验室基准[8] 可观测数据质量与治理 - “垃圾进,垃圾出”定律在AI时代因LLM对数据规模和质量的高依赖被显著放大,数据治理需确保给到LLM的Context精确且足够[25] - 数据治理核心目标是让人容易使用数据(统一语义、简化获取路径)、让AI容易读懂数据(非结构化数据结构化、建立质量校验规则)、让平台内各处容易联动跳转[25] - 大模型对数据语义理解极度依赖数据质量,错误数据可能引发错误决策甚至执行,标准化(如OpenTelemetry)和语义标注完整性变得尤为重要[27] SRE角色转型与未来展望 - AI时代SRE角色从“救火员”转向“高可用架构师”,有机会思考系统架构合理性、设计缺陷等本质问题,并承担“AI训练师”角色沉淀专家经验[20] - 未来SRE岗位呈现两极分化,专家型SRE因能“带AI小弟”而价值倍增,而执行重复任务的初级岗位可能逐渐消失[21] - 三到五年内实现“半自治”运维可行,AI agent可解决80%常规问题,但在部分成熟场景实现闭环自动化,完全自治的“咖啡式运维”仍有距离[35][37] 可观测平台技术演进 - 未来可观测平台交互方式可能从传统图表界面转变为与经验丰富同事的对话模式,支持自然语言查询(如“昨天故障为什么发生”)并给出分析[35] - 理想图景是系统自动值守告警群,夜间AI agent可自动处理大部分问题并生成值守报告,大幅缩短排障时间[36] - 未来可能实现动态数据采集机制,系统稳定时降低采样频率(如每5-30分钟),异常时自动升高频率,从而显著降低存储成本[36]
GOPS2025·深圳站:中邮消费金融展示智能运维体系化建设
搜狐财经· 2025-05-13 18:05
行业动态 - 第二十五届 GOPS 全球运维大会暨研运数智化技术峰会·深圳站开幕 聚焦互联网、金融、通信及传统行业运维技术 传播先进技术思想和理念 [1] - 大会围绕数字技术与消费金融融合协同发展 推动业务模式转型与升级 [1] 公司实践 - 中邮消费金融运行维护专家蒋浩澜分享"全场景自愈运维体系构建" 从版本回退到双活切换的深度实践 系统性阐释从"分钟级"向"秒级"运维能力升级 [1] - 中邮消费金融数智化应用团队主管董佩分享"全链路智能化可观测体系建设之路" 覆盖授信、用信、还款等7大业务场景 监控事件覆盖率达80% 实现业务场景分钟级故障自愈 [2] 技术突破 - 自愈运维体系通过智能预测与决策干预实现主动防御 从"救火"转向"防火"模式 提升业务连续性和运维效率 [1] - 可观测平台建设围绕监控全生命周期展开 通过体系化和智能化设计解决监控痛点 为故障发现、诊断和处置提供支撑 [2] 成果展示 - 中邮消费金融已构建全方位业务导向的全流程可观测监控体系 有效提升运维工作整体效率 [2] - 公司依托高效运维自愈和可观测监控体系 强化智能运维能力体系化建设 增强高质量发展核心竞争力 [2]