文章核心观点 - 研究团队提出“模型对抗与协作”框架,推动医疗人工智能从“单点智能”迈向“协同推理”的范式跃迁,旨在解决单一模型在真实高风险临床场景中安全落地的关键瓶颈,通过构建可辩论、可追溯、动态协作的模型圆桌,促进医疗人工智能向可靠、可解释、可协作的下一代形态演进 [3][4] MCC框架:模型对抗与协作 - 框架将不同的大型语言模型组合成一个动态的、具备“推理-行动-反思”的圆桌式智囊团,并引入共享的“上下文工作区”,确保批判与修正基于同一事实与语境 [8] - 核心流程分为三步:第一步为独立推理,多个模型并行生成答案与论证点,并通过分歧门控仅在出现分歧时激活辩论以控制计算开销 [9] - 第二步为对抗辩论,模型进行多轮“质疑-举证-反驳-修正”的消息传递,开展交叉验证并进行自我反思,以可解释方式更新立场 [10] - 第三步为共识优化,每轮后进行共识判定与早停,若未收敛则以多数投票作为保底输出,将多模型互补性转化为基于上下文的迭代纠错过程 [10] 在医学基准测试上的表现 - 在MedQA基准上取得92.6%的平均准确率,在PubMedQA上达到84.8%,在MMLU医学子集中整体维持90%以上,并在其中五个科目获得SOTA表现 [13] - 在更接近真实风险的评测中保持稳健:在MedXpertQA上准确率约40%,表现位居前列;在MetaMedQA中能识别不确定情形并给出保守处理;在RABBITS鲁棒性测试中对临床语言变体有更强泛化能力 [14] - 在开放式长问答任务中,MCC在所有评估维度上均优于多个对比模型:在医生评审的12项指标中,关键维度提升8–12个百分点;在另一组9项综合质量指标中,缺陷率下降3%–9% [16] - 在HealthBench上与临床专家共识对齐的任务中取得92.1的综合评分,并在更高难度的HealthBench Hard中保持领先 [16] 在模拟诊断对话中的表现 - 在模拟病例对话测试中,MCC在病史采集阶段平均可捕获80%以上的关键患者信息点,在16个病例中有14例的信息覆盖率超过80% [19] - 模型提出的问题与患者主诉的相关性更高,多数病例超过80%,问诊路径更聚焦关键线索 [19] - 在诊断结论阶段,在15个可判定病例中,MCC的首选诊断正确率达到80%,并在鉴别诊断的完整性上呈现优势 [19] - 典型案例显示,模型间的交叉质询促使补问关键线索,进而将诊断从表层推进至更深层解释,体现出“圆桌式会诊”对深入诊断推理的促进作用 [19] 研究展望与意义 - 研究表明,多模型对抗与协作可作为医疗推理能力增强的一种通用范式,在不引入额外训练与外部知识的条件下,借助结构化辩论提高复杂问题上的推理收敛质量与输出稳定性 [22] - 该框架并非替代医生,而是提供多角度论据与可追溯的辩论日志,帮助临床人员降低漏诊误判风险并提升决策透明度,同时具备教学示范意义 [22] - 面向临床应用,仍需进一步推进与电子病历及检查结果的端到端集成、完善对不确定/冲突信息的处理策略,并解决隐私合规与计算成本控制问题 [22]
Cell子刊:龙尔平/万沛星团队发布大模型“圆桌会议”框架,大幅提升医疗AI推理能力
生物世界·2026-01-06 13:05