AI 横扫医学问答,赢麻了?牛津大学团队实锤 AI 临床短板
36氪·2025-05-13 16:04
大模型在医疗场景的应用表现 - 牛津大学研究显示大模型(GPT-4o/Llama 3/Command R+)单独诊断准确率达94.7%,处理方式推荐正确率64.7%,但用户协作后疾病识别正确率骤降至34.5% [3][5] - 实验采用1298名普通人模拟10个就医场景,AI辅助组表现不及对照组(使用搜索引擎或自身知识) [3][5] - 模型在MedQA考试中超越人类60%通过线,但临床模拟场景表现不稳定 [10] 人机协作瓶颈分析 - 用户输入症状信息不全导致AI误诊,平均仅采纳AI提供的1.33个选项(总建议2.2个)且三分之一选择错误 [7] - 现实场景存在碎片信息/临场慌乱/沟通误会等干扰因素,AI缺乏主动追问和引导能力 [9][11] - 实验环境与真实医疗场景存在差距:健康受试者模拟病例、API接口缺乏连续对话、未考虑病患焦虑情绪 [11] 行业启示 - 当前AI医疗评估体系存在缺陷,实验室高分无法直接转化为现实应用效果 [11] - 医疗AI发展需从模型性能竞赛转向人机交互优化,解决"最后一公里"落地难题 [12] - 大模型在标准问答任务(如MedQA)表现优异,但临床决策支持系统需重构交互逻辑 [10][11]