80万条数据揭示隐患：AI正在「污染」病历，你的诊疗数据可能越来越不靠谱

研究背景与核心问题 - 生成式人工智能在医疗领域的加速渗透，越来越多的病历、影像报告及临床文本正纳入AI生成范畴，旨在提升医疗效率[7] - 技术革新背后潜藏着威胁诊断安全性的深层隐患，即医疗数据库正被大量AI生成内容取代并成为下一代AI训练的数据来源，形成“生成-训练-再生成”的自循环结构[7] - 在医学领域，自我训练循环造成的“模型退化”危害更严重，因为医学诊断严重依赖罕见病、非典型表现等尾部信息，轻微的信息流失就会造成系统性诊断盲区，增加漏诊风险，加重医疗不公[7] - 当前医疗AI评价标准大多只看表面语言质量，未考虑诊断准确性，导致模型和临床应用的退化难以被常规监测到[7] 核心研究发现 - 研究团队对临床文本生成、视觉-语言报告、医学图像合成三个任务下的80多万条合成数据进行分析，首次证明在没有强制性人工验证的情况下，多代自我训练循环会使病理多样性迅速消失，诊断可靠度急剧降低，并且医师评估也表明临床效用的退化[2] - 研究对216307份放射学报告、790份临床笔记、1000份眼科病历和9781张胸部X线片进行了多任务实验，表明AI生成的数据污染造成模型性能退化甚至失效，是贯穿三个不同真实临床任务的普遍现象[9] - 各个任务都存在类似的退化逻辑：自我训练循环造成病理多样性丧失、诊断可靠度降低，同时又被虚假的预测信心所掩盖[9] 临床文本生成的具体退化表现 - 经过四代自我训练后，模型出现灾难性退化[13] - 放射学报告中“印象”部分的词汇量由原来的12078个减少到200个左右，减少了98.9%[13] - 独特医学术语减少66%，报告公式化趋势明显[13] - 在更广泛的临床文书（如790份i2b2临床数据库）上也观察到类似结论[13] - 随着AI模型对自身合成数据的信心增大，其真实医疗语言能力降低到原来的四分之一，虚假信心会掩盖患者文书记录中的重大失误[13] 视觉-语言报告生成的具体退化表现 - 即使有真实的胸部X线片作为输入，仅使用合成报告训练，模型仍会出现严重退化[16] - 报告的唯一性从原来的96.2%下降到0.9%[16] - 词汇量从原来的8186个减少到94个，减少了98.9%[16] - 更危险的是虚假安心率急剧上升，当存在危及生命的病理情况时，“无急性发现”的错误比例从原来的13.3%上升到40.3%，但模型自身置信度很高，导致具有临床危险性的结果[16] 医学图像合成的具体退化表现 - 当AI生成的合成医学影像被用于训练后续AI模型时，生成影像难以体现真实患者人群的多样性[19] - 在多轮自我训练循环中，用胸部X光片训练AI影像生成模型，实验结果显示，由于AI合成数据污染而产生的视觉退化、病理表征扭曲以及人口统计学偏倚都会被加重[20] 提出的缓解策略与结论 - 研究团队提出了三种应对AI数据污染导致模型退化的策略并进行了系统验证[22] - 策略一：真实数据混合训练为基本方案，当真实数据占比达到75%时，可以较好地保持病理多样性和语言保真度，有效减少人口统计学偏差[22] - 策略二：质量感知过滤是在有限真实数据基础上提高利用效率的一种方式，可作为增效补充，但不能代替高比例真实数据的作用[22] - 策略三：单纯扩增合成数据不仅无效，还会加快模型退化、加重性别偏见，数据数量不能弥补质量缺陷[22] - 研究团队认为应将数据溯源作为医疗AI部署的政策强制要求，实行强制的人工检验制度，仅靠自愿监督不够[24] - 随着临床AI应用规模扩大，严格的机械验证经济可行性会越来越低，若无制度性限制，医疗系统将存在污染未来患者数字生理数据的风险[24]