AI还不会独自问诊，o3准确率仅为51.12%，上交大×SII开源高难度复杂疾病诊断测评集

Pengfei Liu 投稿量子位 | 公众号 QbitAI AI能够独自完成医疗场景下的诊断任务吗？在真实的临床环境中，医生需要综合分析大量的患者信息——包括主诉症状、既往病史、体格检查以及各类辅助检查结果，才能逐步构建出对病情的全面认知。这一过程不仅要求强大的信息整合能力，更涉及复杂的推理判断。随着大语言模型在复杂推理能力上的不断突破，AI在应对各种科学挑战的前景也愈发广阔。那么，在高度依赖专业知识与临床经验的医疗领域，AI是否也能胜任"诊断"这一关键任务？为系统评估AI在临床诊断任务中的实际表现，来自上海交通大学的SPIRAL Lab与GAIR Lab共同构建了 DiagnosisArena —— 一个用于严格评估AI在专业医学诊断中能力水平的基准测试。研究团队在DiagnosisArena上对现有多个大语言模型进行测试。测试结果显示：即使是o3，在此项高挑战性诊断任务中也只达到了51.12%的准确率，而其他开源模型甚至难以取得25%的准确率。此项结果反映出当前模型在复杂医疗推理任务中仍面临诸多瓶颈。构造过程：如何打造一个考验医学诊断推理能力的基准？研究团队设计了一 ...