MedXpertQA

搜索文档
ICML 2025 | 清华、上海AI Lab提出专家级医学基准MedXpertQA,看o3、R1哪家强
机器之心· 2025-07-08 12:09
医学AI基准研究进展 - 论文被ICML 2025接收并被DeepMind MedGemma采用为评估基准,显示其在学术与产业界的重要性[2] - 提出MedXpertQA新基准,包含4,460个问题,覆盖17个医学专科和11个身体系统,分为文本(Text)和多模态(MM)子集[7] 现有医学基准的局限性 - 现有基准如MedQA已快速饱和(最高达96分),难以有效评估前沿模型能力[4] - 临床相关性不足:文本基准缺乏真实场景覆盖,多模态基准多为自动生成的简单问答对[5] MedXpertQA的核心优势 - **高难度设计**:引入美国医学执照考试题目,筛选后仅保留原始题库12%的高难度问题(4,460题),是目前最具挑战性的医学多选题基准[8][23] - **临床相关性**:整合20+美国医学执照考试题目,包括USMLE、COMLEX及17个专科委员会考试,初始收集37,543题(MedQA的3倍)[10] - **多模态创新**:MM子集包含2,852张真实临床图像,覆盖10种模态类型(如放射学、生命体征),平均问题长度达149.35词,远超传统基准[24] 技术实现与质量控制 - 采用三重过滤机制(人类作答分布、专家标注、AI模型测试)筛选高难度问题[25] - 通过问题改写降低数据泄露风险,多轮专家审查修正近千个问题错误[25] - 文本子集选项扩充至10个,多模态子集扩至5个选项以增强区分度[25] 模型性能评估 - 测试结果显示:多模态模型o1表现最佳(平均44.67分),但准确率未超50%,显示医学AI仍有提升空间[29][32] - 开源模型中DeepSeek-R1在Text子集领先(37.76分),推理增强模型在Reasoning子集优势显著[29][32] - 人类医学生基准准确率基于23万次作答数据,为模型性能提供可靠参照[32] 行业影响与未来方向 - MedXpertQA填补了高难度、高临床相关性医学基准的空白,推动专业模型与通用推理模型发展[33] - 医学领域或将成为继数学、编程后评估AI推理能力的新场景[34] - 基准已开源代码与榜单,促进行业协作(GitHub及官网链接)[3][28]