Workflow
银行技术服务
icon
搜索文档
领域驱动的 RAG:基于分布式所有权构建精准的企业知识系统
搜狐财经· 2025-05-22 21:37
公司背景与挑战 - 公司在银行技术领域拥有超过30年行业经验,是领军供应商,通过战略性收购不断扩大业务 [1] - 公司面临庞大产品线中保持文档一致性与时效性的挑战,部分模块存在文档不清晰或内容过时的问题 [1] - 领域专家的宝贵专业知识分散且孤立,难以被系统地整合和获取 [1] RAG技术的探索与应用 - 公司探索使用检索增强生成(RAG)技术来提升事实查找的准确性和效率 [2] - RAG系统能够访问庞大的数据源,提供准确且高效的答案,支持多种语言 [2] - 目前基于大语言模型(LLM)的技术存在准确度低和模型容易出现"幻觉"的问题 [2] - 公司将AI定义为咨询工具,顾问负责过滤、验证和修改AI生成的输出 [3] 知识所有权与领域专家 - 公司重新分配销售工程团队对RAG实施的所有权,指定专门的领域所有者来负责监督RAG系统的集成和微调 [3] - 领域所有者的任务是确保RAG系统能够无缝对接其团队的独特需求,同时保证响应的准确性 [3] - 领域专家负责设计、测试和优化系统提示词,以确保RAG系统能够准确理解查询 [4] 元数据策略 - 公司采用基于元数据的方法来生成RAG文档,领域专家评审和编辑大模型的输出内容 [5][6] - 元数据包含领域常用的关键词,如三字母缩写、内部项目名称或旧名称 [6] - 元数据是RAG应用中组织和提供上下文信息的核心,帮助用户理解系统响应的范围和背景 [6] RAG系统的实现与架构 - 公司使用Flask构建了一个标准的Web应用,具备身份验证机制、错误处理能力和响应式用户界面 [10] - RAG应用基于分布式RAG系统,由各领域所有者管理专属的知识模型 [10] - 知识模型由四个核心组成部分构成:文档的向量存储、元数据、系统提示词和UML图 [10] 查询路径与UML增强 - 公司实现了三种查询路径:自动选择模式、手动选择模式和全部搜索模式 [13][14] - 公司整合了UML图可视化功能,用户可以通过交互式图表探索组件之间的关系 [16] - UML文件包含了描述性文本属性,成为大语言模型有价值的输入来源 [16] 性能评估与关键发现 - 分类器准确率为81.7%,响应精确度(分类模型)为97.4%,响应精确度(所有模型)为83.8% [22] - 专家引导的答案恢复率为63.4%,表明人类专家在复杂问答系统中的重要性 [23][26] - 专门模型优于全面查询,分类质量对答案质量有显著影响 [24] 结论与展望 - 提升分类器的准确性能够显著提高答案质量,建议采用混合策略 [28] - 公司通过分布式所有权模型、基于元数据的查询路由和增强的UML知识库,打造了一个高效的知识管理系统 [29] - 初步结果令人振奋,销售工程师和领域专家对系统的反馈积极 [29]