AI医生考试高分,实战不及格?Nature Medicine论文显示,AI大模型不能帮助公众作出更好的医疗决策
生物世界·2026-02-10 12:11

文章核心观点 - 大语言模型在标准化医学考试中表现优异,但在真实医疗场景中作为公众医疗助手的效果不佳,其诊断和决策能力并未有效转化为使用者的实际获益,揭示了人类与LLM交互存在难题,AI医疗的发展路径应是先作为专业医生的辅助工具,再逐步服务公众[2][3][6][11][15] LLM在医疗领域的应用现状与期望 - 全球医疗保健提供者正在探索使用大语言模型为公众提供医疗建议,特别是在医疗资源不发达地区,AI医生被视为解决医疗资源分布不均的有效手段[2][6] - OpenAI的ChatGPT及谷歌的Med-PaLM 2等大语言模型在各类医学考试中表现优异,甚至达到人类医学专家水平,引发对AI医疗应用的高度期待[6] - 调查显示越来越多的人开始向AI聊天机器人咨询健康问题[6] 最新研究揭示的现实表现差距 - 牛津大学研究人员在《自然·医学》发表研究,通过大规模随机对照试验测试LLM作为公众医疗助手的效果[3] - 研究招募1298名受试者,每人被指派10种医疗情景,随机使用GPT-4o、Llama 3或Command R+中的一个,或使用互联网搜索引擎作为对照组[7] - 在无人类受试者测试时,LLM识别疾病的准确率高达94.9%,选择行动方案的正确率为56.3%[9] - 当人类受试者使用相同的LLM时,病症识别正确率低于34.5%,选择行动方案正确率低于44.2%,结果未超过使用传统搜索引擎的对照组[9][11] - 人类患者在真实场景中使用LLM进行疾病诊断和医疗决策,并未比使用传统搜索引擎更好[11] 核心问题:人类-LLM交互难题 - 症结不在于LLM的医学知识储备,而在于人类与LLM的交互难题[12][13] - 人类患者往往无法准确、完整地描述自己的症状,导致向LLM提供的信息不完整或不准确[13] - LLM可能过于依赖专业术语,未能将医学知识有效“翻译”为公众所能理解的语言,有时还可能生成误导性或错误信息[13] - 示例显示,当用户询问就医紧急程度时,LLM转而回答一般原则,未能替代专业医生的具体判断,暴露了在信息不完整时的局限性[13][14] - LLM掌握的医学知识的专业性与公众理解的通俗性之间存在巨大鸿沟,标准化的考试和模拟互动不能体现其真实场景表现[14] 对行业发展的启示与建议 - 研究团队建议,LLM在医疗领域大规模部署前,应进行系统的人类用户测试,以评估其与人类的交互能力[15] - AI医疗的发展路径可能应该是“先专业后普及”,即先作为专业医生的辅助工具,待发展成熟后再逐步直接服务于公众[15] - 有临床专家(如华山医院张文宏医生)明确反对将AI系统性地引入医院病历和日常诊疗流程,担心其可能削弱年轻医生的临床思维训练与专业判断能力[2]