Workflow
大模型在华为云数字化运维的全面探索和实践
2024-12-05 14:45

报告行业投资评级 未提及相关内容 报告的核心观点 - 大模型使能运维聚焦提升运维生产力,选高门槛、高人力、高价值场景,加速智能运维发展,改变运维交互模式,实现从自动化到无人化运维转变,需端到端构建应用体系 [70] - 业务演进分三阶段,算法架构以大小模型协同为主,未来技术需集成人机协同和AI Agent技术,基于大语言模型和人机协同技术构建运维智能中枢决策引擎,驱动运维无人化变革 [70][71] 根据相关目录分别进行总结 华为云智能运维发展之路 - 华为云AIOps发展分三阶段,2018 - 2020年是单场景智能运维,用传统ML算法;2021 - 2023年是串并联智能运维,可视、可决策、可执行;2024年起是大模型使能运维,采用LLM + 运维Copilot [5] - 不同阶段有不同智能运维场景,如早期有日志模版分析、云服务单指标异常检测等,中期有硬件故障预测、变更命令分级智能识别等,后期有自然语言问答、运维信息查询等 [5] 大模型使能运维规划 - 总体规划聚焦高价值、高门槛、高人力场景,面向长期规划,业务规划聚焦2条核心价值流,全面辅助运维人效提升 [6][7] - 故障处理和事件处理场景存在痛点,如故障处理起会时重复故障拉取、通报内容生成繁琐等,事件处理存在定级不合理、分流不合理等问题,对应有机会点,如故障处理可基于文本相似WR自动化判重、通过AI生成通报内容等,事件处理可智能分级、智能派单等 [7] - 构建运维盘古助手,多触点构建包括独立Web端、WeLink机器人、运维工具系统集成,聚焦运维人效提升,打造智能运维新高地 [8] 运维大模型难点和解法 - 围绕运维大模型4大难点,即语料少知识质量差、大模型幻觉、大模型逻辑推理难、业务应用难见效慢,构建6大方案 [18] - 运维语料数据增强采用大模型合成数据和语料持续迭代,围绕运维实际活动构建冷启动原始语料集,1个月完成10 + 运维语料数据集建设,语料质量80%,还可构建真实语料意图标注能力进行有效治理 [19][20][21] - 全流程运维知识治理确定运维知识地图,明确职责边界,统一知识管理和存储,构建知识消费运营体系,围绕事件知识等达成知识完整度90%,知识准确率85 + % [22][25] - 确定性运维意图理解通过多层路由,结合大小模型构建运维多场景智能问答意图识别能力,意图识别准确率从65%提升至80% + [26] - 增强RAG实践从知识问答改写到多路知识检索全面提升,问题理解准确率从50% + 提升至80% + ,Al答准率从30% + 提升至70% + [36][43] - 基于确定性编排构建大小模型协同的故障分析方案,借助COT结合故障案例确定故障分析步骤,结合编排框架实现执行链确定性编排,组合故障大小模型,小模型精确诊断定界,大模型确定预案推荐和总结 [44][46][48] - 多端触点集成实现运维助手全场景覆盖,改变用户交互行为,运维使用人群整体覆盖率达成30%,整体运维人效提升20% + [54][58] 总结和规划 - 总结指出大模型使能运维围绕提升运维生产力,加速智能运维发展,需端到端构建应用体系 [70] - 趋势包括业务演进分三阶段,算法架构以大小模型协同为主,未来技术需集成人机协同和AI Agent技术 [70] - 未来规划基于大语言模型和人机协同技术,构建运维智能中枢决策引擎,驱动运维无人化变革,打造人机协同运维副驾驶,涵盖故障处理、事件处理等多方面 [71][72]