Workflow
MedKGEval框架
icon
搜索文档
GPT-4o医学知识覆盖率仅55%?腾讯优图团队发布大模型医疗能力“体检报告”
量子位· 2025-04-30 12:10
医疗大模型知识覆盖度评估框架MedKGEval - 腾讯优图实验室天衍研究中心提出MedKGEval框架,首次通过医疗知识图谱(KG)的多层级评估系统量化GPT-4o等主流模型的医学知识覆盖度,该研究被WWW 2025会议录用为口头报告[1][2] - 当前主流评估体系(如Prompt-CBLUE、Medbench)存在三大局限:罕见病症覆盖不足、难以量化知识储量、无法捕捉医学概念间复杂关联[5] - MedKGEval创新性设计三级评估体系:实体层(医学概念理解)、关系层(医学关联区分)、子图层(结构化推理),通过真伪判断和多选题形式实现任务导向与知识导向的双重评测[6][7][11] 评估任务架构设计 - 实体层面包含3项任务:实体类型标注(ET)、实体聚类(EC)、实体消歧(ED),验证模型对"糖尿病"等医学概念的分类与等价性判断能力[11] - 关系层面包含3项任务:关系类型标注(RT)、事实核验(FC)、关系预测(RP),检验模型对"并发症"等医学关联的认知[11] - 子图层面包含3项任务:错误识别(ER)、子图推理(R1/R2),评估模型在多跳关系(如"高血压→并发症→脑出血→影像检查→CT")中的结构化推理能力[11] 实验数据与模型表现 - 采用中文医疗知识图谱CPubMedKG和CMeKG作为基准,评估11个LLM(含开源通用模型、医疗垂类模型、闭源模型)[15][16] - GPT-4o以70.65%平均准确率领先,参数量翻倍可使同架构模型性能提升3-5%,通用模型整体表现优于医疗垂类模型[16] - 知识覆盖度方面,GPT-4o在CPubMedKG上覆盖65.66%实体、55.60%关系、62.31%三元组,Qwen2-7B和Baichuan2-13B分别达到61.95%和62.05%的三元组覆盖率[17][18] 关键发现与应用价值 - 模型对高关联度实体(如糖尿病)和高频关系(如鉴别诊断)表现更优,例如GPT-4o在"超声"实体相关问答中正确率达94.16%[19][24] - 框架可精准定位知识缺陷,如WiNGPT在"肺结核"实体、Baichuan2-13B在"相关(转换)"关系中存在明显短板,建议针对性补充专项数据优化[20][25] - 该研究为医疗领域LLM的可靠性验证提供量化依据,代码已开源(GitHub地址)[21][22][23]