Workflow
斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
量子位·2025-06-03 14:21

西风 发自 凹非寺 量子位 | 公众号 QbitAI 斯坦福最新大模型医疗任务全面评测, DeepSeek R1 以66%胜率拿下第一 ! 歪国网友纷纷被惊艳住了,原因在于该评测 重 点聚焦临床医生的 日常工作场景 ,而非仅局限于传统医疗执照考试题。 要评测就要全 方 位。 31页论文最终得出,DeepSeek R1、o3-mini、Claude 3.7 Sonnet等在内的9个前沿大模型,DeepSeek R1以66%胜率、0.75宏观平均分 领先。 为当前的基准测试结果,团队还打造了一个可公开访问的排行榜。 团队构建了 含35个基准测试的综合评估框架 ,覆盖 22个子类别 医疗任务。 整个评测的分类体系还经过了临床医生验证, 由29名来自14个医学专科的执业医师共同参与开发 。 光作者名单就老长,斯坦福大学医学院、斯坦福医疗中心、斯坦福大学基础模型研究中心 (CRFM) 、微软的研究人员均在列。 | Accuracy | Efficiency | General information | | | | | | | | | | --- | --- | --- | --- | --- | --- | --- ...