文章核心观点 - 中国科学技术大学MIRA实验室王杰教授团队提出一个创新框架KG-SFT,旨在通过引入知识图谱来提升大语言模型在特定领域的知识理解和处理能力[1] - 该框架通过生成蕴含丰富领域知识和逻辑关系的推理过程,解决了LLMs在专业领域知识理解和推理能力弱的问题[6][7] - 实验结果表明,KG-SFT在多个领域和语言的数据集上效果显著,尤其在低数据场景下性能提升明显,并成功入选ICLR 2025[2][19][20] KG-SFT框架工作机制 - 框架核心是将知识图谱与监督微调相结合,通过生成逻辑严密的推理过程解释来增强LLMs对知识和逻辑的理解[6][7] - 框架包含三个关键组件:Extractor、Generator和Detector[8][10] Extractor组件 - 负责对问答对中的实体进行识别,并从外部知识图谱中提取相关的推理子图[11] - 通过命名实体识别和多条推理路径检索,有效揭示Q&A对背后的知识关联和逻辑[12][13] Generator组件 - 利用图结构重要性评分算法对推理子图中的实体和关系进行评分,选择高分部分作为重要内容[14] - 使用大型语言模型生成逻辑清晰、流畅的解释草稿,帮助LLMs理解问题与答案间的关系[15][16] Detector组件 - 对生成的解释草稿进行句子级别的知识冲突检测,确保解释的正确性[17] - 通过自然语言推理模型和重新引导机制,标记并纠正可能存在的知识冲突,提高解释可靠性[18] 实验结果与性能 - 在低数据医学问答任务中,KG-SFT在英语场景下仅使用5%的训练数据就比传统方法提高近14%的准确率[20] - 具体数据表明,在5%训练数据下,MedQA英语准确率从26.02%提升至40.00%,MedQA中文从35.57%提升至38.83%[21] - KG-SFT可作为插件式模块与现有数据增强方法结合使用,进一步提升性能,例如与AugGPT结合在MedQA英语上从40.29%提升至40.92%[23][24] - 该方法在多个领域数据集上展现出广泛适用性,尽管在形式逻辑等复杂推理领域表现稍逊,但整体竞争力较强[24][25]
中科大ICLR2025:特定领域仅用5%训练数据,知识准确率提升14%
量子位·2025-04-07 12:19