AI医生考试高分，实战不及格？Nature Medicine论文显示，AI大模型不能帮助公众作出更好的医疗决策

文章核心观点 - 大语言模型在标准化医学考试中表现优异，但在真实医疗场景中作为公众医疗助手的效果不佳，其诊断和决策能力并未有效转化为使用者的实际获益，揭示了人类与LLM交互存在难题，AI医疗的发展路径应是先作为专业医生的辅助工具，再逐步服务公众[2][3][6][11][15] LLM在医疗领域的应用现状与期望 - 全球医疗保健提供者正在探索使用大语言模型为公众提供医疗建议，特别是在医疗资源不发达地区，AI医生被视为解决医疗资源分布不均的有效手段[2][6] - OpenAI的ChatGPT及谷歌的Med-PaLM 2等大语言模型在各类医学考试中表现优异，甚至达到人类医学专家水平，引发对AI医疗应用的高度期待[6] - 调查显示越来越多的人开始向AI聊天机器人咨询健康问题[6] 最新研究揭示的现实表现差距 - 牛津大学研究人员在《自然·医学》发表研究，通过大规模随机对照试验测试LLM作为公众医疗助手的效果[3] - 研究招募1298名受试者，每人被指派10种医疗情景，随机使用GPT-4o、Llama 3或Command R+中的一个，或使用互联网搜索引擎作为对照组[7] - 在无人类受试者测试时，LLM识别疾病的准确率高达94.9%，选择行动方案的正确率为56.3%[9] - 当人类受试者使用相同的LLM时，病症识别正确率低于34.5%，选择行动方案正确率低于44.2%，结果未超过使用传统搜索引擎的对照组[9][11] - 人类患者在真实场景中使用LLM进行疾病诊断和医疗决策，并未比使用传统搜索引擎更好[11] 核心问题：人类-LLM交互难题 - 症结不在于LLM的医学知识储备，而在于人类与LLM的交互难题[12][13] - 人类患者往往无法准确、完整地描述自己的症状，导致向LLM提供的信息不完整或不准确[13] - LLM可能过于依赖专业术语，未能将医学知识有效“翻译”为公众所能理解的语言，有时还可能生成误导性或错误信息[13] - 示例显示，当用户询问就医紧急程度时，LLM转而回答一般原则，未能替代专业医生的具体判断，暴露了在信息不完整时的局限性[13][14] - LLM掌握的医学知识的专业性与公众理解的通俗性之间存在巨大鸿沟，标准化的考试和模拟互动不能体现其真实场景表现[14] 对行业发展的启示与建议 - 研究团队建议，LLM在医疗领域大规模部署前，应进行系统的人类用户测试，以评估其与人类的交互能力[15] - AI医疗的发展路径可能应该是“先专业后普及”，即先作为专业医生的辅助工具，待发展成熟后再逐步直接服务于公众[15] - 有临床专家（如华山医院张文宏医生）明确反对将AI系统性地引入医院病历和日常诊疗流程，担心其可能削弱年轻医生的临床思维训练与专业判断能力[2]