AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品
量子位·2025-12-29 14:37

文章核心观点 - 蚂蚁健康与北京大学人民医院王俊院士团队联合发布了全球首个大模型专病循证能力评测框架GAPS及其配套评测集GAPS-NSCLC-preview,旨在解决现有医疗AI评测缺乏临床深度、完整性、鲁棒性与安全性综合评估的问题 [1][2] - 该研究通过客观评测发现,当前主流医疗大模型虽具备广泛医学知识,但在应对真实临床场景的不确定性时,其判断力与可靠性仍需提升,尚处于“背书机器”而非“推理伙伴”的阶段 [3][29][40] - GAPS框架标志着医疗AI评测标准从“考试分数”向“临床胜任力”的范式转移,为AI向可信临床伙伴演进提供了系统性、自动化、可扩展的评估工具,是医疗AI从“技术驱动”走向“临床价值驱动”的关键一步 [16][39][40] 行业痛点与现有评测局限 - 行业面临“考得好,信不过”的困境,医生和患者难以在短时间内对大模型产生客观评价,信任无从建立 [5] - 当前医疗AI的基准测试(如MedQA、PubMedQA)普遍依赖“试卷型”基准,仅考察事实记忆能力,而HealthBench等方法则受限于主观性强、扩展性差 [7] - 现有方法无法反映真实诊疗场景中患者描述模糊、检查结果矛盾、治疗方案需权衡利弊等不确定性挑战,真正的医疗能力在于管理不确定性而非背诵事实 [8] - 尤其在肺癌这一全球致死率最高的癌症领域,缺乏细粒度、专病化的评估工具,使得行业难以客观判断医疗AI的临床可用性 [9] GAPS评测框架的核心设计 - GAPS是一个基于循证医学、全自动构建的AI临床能力评测框架,首次将临床胜任力解构为四个正交维度:认知深度(G)、回答完备性(A)、鲁棒性(P)和安全底线(S) [11][16] - 认知深度(G):分为四级,从G1(事实回忆)到G4(在证据冲突或缺失的“灰色地带”进行推理性思维),其中G4是当前所有模型的“死亡区” [11][14] - 回答完备性(A):引入三级评价,A1(核心诊疗建议)、A2(关键限定条件,如剂量、禁忌症)、A3(患者教育等),缺少A2可能导致临床误用 [12][14] - 鲁棒性(P):通过三类扰动测试模型抗干扰能力,包括语言噪音(P1)、冗余信息(P2)和对抗性前提(P3),实验显示多数模型极易被误导 [13][14][15] - 安全底线(S):建立四级风险体系,从S1(无关回答)到S4(灾难性错误),一旦触犯S4,总分直接归零,是不可逾越的红线 [16] 技术实现与核心优势 - 全自动化流水线:GAPS构建了一套基于临床指南的自动化生成工厂,实现了从问题生成、评分标准制定到多维度打分的端到端自动化 [2][17] - 评测集详情:已成功应用于非小细胞肺癌(NSCLC)领域,生成包含92个问题、覆盖1691个临床要点的评测集GAPS-NSCLC-preview,每题均配备平均12项完整性与7项安全性评分要点 [2][18] - 关键流程:包括证据邻域构建、基于GRADE方法学的Deep Research Agent模拟专家流程、以及利用大模型合成去隐私化临床病例的虚拟患者生成 [20] - 可扩展性:未来可快速扩展至心血管、儿科、内分泌等任意专科的专病领域,只要有指南就能生成高质量评测集 [19] - 自动化评测框架:配套的自动化评测框架实现了客观、细粒度、端到端的评估,其评分结果与五位资深专家独立标注的整体一致率达90.00%,Cohen‘s Kappa系数达0.77,Macro-F1达0.88,已达到人类专家间一致性水平(88.5%~92.0%) [23][24][25] - 结构化反馈:框架输出的结构化评分(G/A/P/S四维)可精准定位模型缺陷,使GAPS成为“评测即反馈、反馈即迭代”的基石,推动AI医疗能力通过可量化指标稳步进化 [26] 对主流大模型的评测结果 - 认知深度表现悬殊:所有模型在G1(事实)和G2(解释)阶段表现优异(GPT-5得分约0.72),但进入G3(确定性决策)和G4(非确定性推理)后分数断崖式下跌,GPT-5在G4阶段跌至0.45,其他模型甚至跌破0.35 [29] - 回答完备性不足:在完备性测试中,模型往往只给出核心建议(A1),却忽略了关键的限定条件(A2),导致临床建议缺乏可操作性 [31] - 鲁棒性脆弱:在P3(对抗性测试)中,只要在提问中加入误导性前提,模型的判断力就会崩塌,甚至顺从用户的错误引导 [34] - 安全隐患:在复杂的推理场景下,部分模型(如Claude Opus 4)的致命错误率(S4)随难度显著上升,尽管GPT-5和Gemini 2.5在极高风险错误上控制较好 [36] 合作模式与行业意义 - 权威临床主导:项目由北京大学人民医院王俊院士团队全程主导,原创性提出GAPS评测理论框架,并组织十余位胸外科医生深度参与题库构建、金标准答案撰写及专业审核,确保指标扎根真实临床实践 [4] - 医工深度融合:实现了“临床专家定标准、AI技术做转化”的协作模式,突破了传统医疗AI评测中专家浅层参与的局限,为医疗AI发展树立了新的范式 [4] - 公开成果:相关论文、评测集GAPS-NSCLC-preview及自动化评测框架已全面公开,可供行业研究与应用 [2][41]