医疗AI迎来大考,南洋理工发布首个LLM电子病历处理评测
36氪·2025-12-16 11:05

南洋理工大学研究人员构建了EHRStruct基准,用于评测LLM处理结构化电子病历的能力。该基准涵盖11项核心任务,包含2200个样本,按临 床场景、认知层级和功能类别组织。研究发现通用大模型优于医学专用模型,数据驱动任务表现更强,输入格式和微调方式对性能有显著影 响。基于此,团队提出EHRMaster框架,与Gemini联合后性能超越现有模型。 电子病历(EHR)是医疗体系中最核心的数据形态,集中呈现患者在诊断、检验、用药、生命体征监测与疾病管理过程中的关键临床信息,是临床决策的 重要基础。 随着LLM逐步应用于医疗场景,如何使其有效理解和处理这些结构化的EHR,从而辅助医生完成关键的数据分析与临床推理,已成为推动医疗人工智能 发展的重要问题。 因此,南洋理工大学的研究人员提出了首个全面评测LLM处理结构化电子病历能力的综合基准EHRStruct,由计算机科学家与医学专家共同构建,并按 照临床场景、认知层级与功能类别进行层次化组织,全面的覆盖了LLM处理结构化EHR的11项核心任务,包含2,200个标准化样本,为医疗大模型的可控 性、可靠性与临床可用性提供统一而严谨的可解释评测框架。 论文链接:https: ...