斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

斯坦福医疗大模型评测 - 斯坦福团队构建了名为MedHELM的综合评估框架，包含35个基准测试覆盖22个子类别医疗任务，重点模拟临床医生日常工作场景[3][12][20] - 评估框架经过29名来自14个医学专科的临床医生验证，最终形成5个类别、22个子类别、121项任务的分类体系，临床医生对子类别分类达成96.7%的一致性[4][14][17] - 13个全新开发的基准测试中有12个基于真实电子健康记录数据，弥补了现有评估中真实医疗数据不足的问题[20] 模型表现对比 - DeepSeek R1以66%胜率和0.75宏观平均分领先，胜率标准差为0.10显示较高稳定性[7][24][27] - o3-mini以64%胜率和最高0.77宏观平均分排名第二，在临床决策支持类别表现较优[26][27] - Claude 3.7 Sonnet和3.5 Sonnet胜率分别为64%和63%，宏观平均分均为0.73[26][27] - GPT-4o胜率57%，Gemini 2.0 Flash和GPT-4o mini胜率较低分别为42%和39%[26][27] - 开源模型Llama 3.3 Instruct胜率30%，Gemini 1.5 Pro以24%胜率排名末位但胜率标准差最低(0.08)[26][27] 任务类别表现差异 - 模型在临床病例生成任务中表现最佳(0.74-0.85分)，患者沟通教育任务次之(0.76-0.89分)[32] - 医学研究辅助(0.65-0.75分)和临床决策支持(0.61-0.76分)表现中等[32] - 管理与工作流程类别得分最低(0.53-0.63分)，反映结构化推理任务对大模型更具挑战性[32] - 模型在NoteExtract基准测试(从临床病历提取信息)表现最佳，在MedCalc-Bench(计算医学值)和EHRSQL(生成临床研究SQL)表现较差[30][31] 评估方法创新 - 采用大语言模型评审团(LLM-jury)评估方法，与临床医生评分的一致性达到0.47组内相关系数，超过临床医生间平均一致性(0.43)[34][35] - LLM陪审团方法优于传统自动化评估指标如ROUGE-L(0.36)和BERTScore-F1(0.44)[35] - 成本效益分析显示非推理模型GPT-4o mini(805美元)和Gemini 2.0 Flash(815美元)成本更低但胜率较低(0.39和0.42)[38] - 推理模型DeepSeek R1(1806美元)和o3-mini(1722美元)成本较高但胜率更优(0.66和0.64)，Claude 3.5/3.7 Sonnet(1537-1571美元)性价比良好[39]