Workflow
AI还不会独自问诊,o3准确率仅为51.12%,上交大×SII开源高难度复杂疾病诊断测评集
量子位·2025-06-04 15:04

Pengfei Liu 投稿 量子位 | 公众号 QbitAI AI能够 独自完成 医疗场景下的诊断任务吗? 在真实的临床环境中,医生需要 综合分析 大量的患者信息——包括主诉症状、既往病史、体格检查以及各类辅助检查结果,才能 逐步构建出对病情的全面认知。 这一过程不仅要求强大的信息整合能力,更涉及复杂的推理判断。随着大语言模型在复杂推理能力上的不断突破,AI在应对各种 科学挑战的前景也愈发广阔。那么, 在高度依赖专业知识与临床经验的医疗领域 ,AI是否也能胜任"诊断"这一关键任务? 为系统评估AI在临床诊断任务中的实际表现,来自上海交通大学的SPIRAL Lab与GAIR Lab共同构建了 DiagnosisArena —— 一个用于严格评估AI在专业医学诊断中能力水平的基准测试。 研究团队在DiagnosisArena上对现有多个大语言模型进行测试。 测试结果显示: 即使是o3,在此项高挑战性诊断任务中也只达到了51.12%的准确率 ,而其他开源模型甚至难以取得25%的准确 率。此项结果反映出当前模型在复杂医疗推理任务中仍面临诸多瓶颈。 构造过程:如何打造一个考验医学诊断推理能力的基准? 研究团队设计了一 ...