DiagAgent
搜索文档
上交×蚂蚁发布 DiagGym:以世界模型驱动交互式医学诊断智能体
机器之心· 2025-11-11 16:40
研究核心观点 - 提出“环境-智能体”训练框架,通过构建虚拟临床环境DiagGym和诊断智能体DiagAgent,将AI诊断从静态问答升级为动态多轮决策过程[7][11][13] - 该框架在诊断智能体多轮诊断流程管理能力方面显著优于DeepSeek、Claude-4等先进模型[2] - 研究团队设计了聚焦诊断推理过程的评测基准DiagBench,包含750个病例和973条医生手工撰写的评估准则[2][12] 技术框架与创新 - 构建医学诊断世界模型DiagGym,基于超过11万份真实诊疗数据训练,覆盖近5000种疾病,能模拟从典型到罕见的各种诊疗路径[10][14] - 诊断智能体DiagAgent通过端到端强化学习进行训练,学习动态决策策略,包括主动检查推荐和适时诊断收敛[11][15] - 创新性地引入带权重的诊断过程评估准则,推动AI诊断评估从“唯结果论”转向关注决策过程合理性[12][20] 实验性能结果 - DiagGym在步骤相似度和整链一致性上表现卓越,分别达到3.57/5分和96.9%,远超基线模型[24] - DiagAgent-7B检查推荐命中率达72.56%,而MedGemma和DeepSeek-v3等模型仅为20%-28%[25] - 在端到端诊断任务中,DiagAgent-14B平均交互6.66轮,检查推荐F1分数46.59%,最终诊断准确率61.27%,全面领先其他模型[28] 效率与成本优势 - DiagGym仅需单卡A100即可部署,单次生成耗时约0.52 GPU·s,而DeepSeek-v3-671B需要至少16张GPU和超过62 GPU·s的算力[24] - 强化学习策略为模型带来10至15个百分点以上的诊断准确率增益,显著优于监督微调[34] 研究价值与行业影响 - 开创“环境-智能体”闭环训练范式,为诊断智能体提供安全、可扩展的训练场,摆脱对有限诊断过程数据的依赖[37] - 代码、模型、测试数据已全部开源,推动行业技术发展[3][5] - 未来可扩展到千亿级模型,并将治疗方案、预后评估等环节纳入,构建诊疗一体化超级智能体[38][39]