AutoSchemaKG

搜索文档
最大的开源GraphRag:知识图谱完全自主构建|港科大&华为
量子位· 2025-06-12 09:37
知识图谱技术突破 - AutoSchemaKG框架实现无需预定义模式的完全自主知识图谱构建 利用大型语言模型直接从文本提取知识三元组并动态归纳模式 显著提升可扩展性和领域适应性[1][7] - 实验证实该系统模式归纳与人类设计模式达到95%语义对齐 已构建ATLAS知识图谱系列包含超9亿节点和59亿边[2][17] - 创新性采用概念化方法 将实体/事件泛化为语义类别 建立跨领域语义桥梁 支持零样本推理并减少知识稀疏性[7][8] 技术实现路径 - 采用三阶段流水线提取实体-实体 实体-事件 事件-事件关系 支持多种大型语言模型并优化GPU加速[9] - 模式归纳阶段通过LLM生成抽象概念短语 整合邻近节点上下文信息增强语义理解 实现自动化类型泛化[11][12] - 计算资源消耗巨大 构建最大规模ATLAS-CC图谱需52,300GPU小时 处理9.373亿节点和59.6亿边[19][20] 性能验证 - 三元组提取质量优异 在ATLAS-Wiki上实体-实体关系F1达94.09% 事件-事件关系F1达96.01%[21][22] - 事件建模效果显著 多项选择题测试中事件级三元组准确率超95% 比实体级保留更丰富信息[23][24] - 多跳问答任务表现突出 与HippoRAG2集成后性能比传统检索方法高12-18% 在MuSiQue数据集EM达31.8%[28][29] 应用优势 - 领域适应性强 ATLAS-Wiki在宗教/哲学领域优势明显 ATLAS-Pes2o在医学/社会科学表现更佳[35] - 法律领域性能提升显著 比无检索基线高4个百分点 远超Freebase等传统知识图谱方法[32][35] - 学术资源转化高效 ATLAS-Pes2o基于Semantic Scholar摘要构建 在技术类任务中验证学术知识迁移价值[17][18]