Nature重磅：魔改GPT-2，AI帮你预测未来20年健康风险，涉及1000+疾病

模型技术核心 - 提出名为Delphi-2M的突破性AI模型，基于生成式预训练Transformer（GPT）技术，通过分析个人病历和生活方式，对1000多种疾病提供长达20年的潜在疾病风险评估，并生成保护隐私的合成数据 [1] - 模型对GPT-2架构进行了修改，通过正弦和余弦基函数对连续年龄进行编码，并在输出头中加入模块，通过指数等待时间模型预测下一时间，从而允许用户通过提供部分健康轨迹，计算出疾病及死亡事件的每日新增率，并抽样生成完整健康轨迹 [2] - 模型的“生成式”特性使其能模拟个体未来长达20年的健康路径，突破了传统模型仅能预测1-5年发病概率的限制 [8] 训练与验证数据 - 训练数据主要来自英国生物样本库的40万名参与者，涵盖ICD-10顶级诊断代码、性别、体重指数（BMI）、吸烟/饮酒习惯及死亡信息 [4] - 内部验证使用了英国生物样本库剩余20%的参与者（约10.2万人），以及47.1万名在2020年7月1日仍存活的参与者进行纵向预测能力验证 [4] - 外部验证使用了丹麦全国疾病登记系统的193万国民数据（时间跨度1978-2018年），模型未调整任何参数，直接复用英国数据训练的权重，以检验其跨人群、跨医疗体系的适用性 [4] 模型性能表现 - 模型可同时预测1256种疾病及死亡风险，实现了近乎“全谱覆盖” [5] - 在英国生物样本库数据内部验证中，模型对多数疾病的年龄-性别分层AUC平均达0.76，97%的疾病AUC超过0.5，其中死亡风险预测的AUC最高，男女均达0.97 [6] - 在预测心血管疾病、痴呆时，AUC与QRisk3、UKBDRS等经典工具相当；预测死亡风险时，AUC优于Charlson共病指数、Elixhauser共病指数等常用指标；仅在糖尿病预测上略逊于临床金标准HbA1c [6] - 在丹麦外部验证数据中，平均AUC虽略低于英国数据，但疾病预测结果与丹麦人群实际发病模式高度相关，证明了其广泛的跨人群泛化能力 [6] 预测能力验证 - 以英国生物样本库中60岁参与者为例，基于其60岁前的病史数据生成未来健康轨迹，结果显示在群体层面，模型预测的70-75岁疾病发病率与实际观察值高度一致 [8] - 模型能清晰区分个体风险，例如对于胰腺癌，能识别出既往有消化系统疾病的人群风险大幅升高；对于哮喘、骨关节炎等疾病，也能识别出偏离群体平均风险的个体 [8] - 随着预测时间延长，模型准确性会逐渐下降，但仍优于仅基于年龄和性别的预测，证明了其具备长期预测价值 [8] 行业专家评价与潜在应用 - 专家评价Delphi-2M是计算医学与数据整合领域的重大突破，凸显了GPT模型在预测大规模人群及个体健康轨迹中千余种疾病发生率与时间节点方面的强大能力 [9] - 模型展示了如何运用可解释AI进行预测建模，为该技术应用于临床实践奠定基础，并有助于识别需要干预的高风险个体 [9] - 模型的合成数据生成能力可生成完全虚构但复现真实人群发病率模式的健康轨迹，且无法反推真实个人信息，可作为真实数据的替代品用于训练其他医疗AI模型，兼具隐私保护与数据利用优势 [9] 模型局限性 - 模型存在训练数据偏差，因其训练数据英国生物样本库的参与者以40-70岁社会经济地位较高的白人为主，导致模型对其他人群的预测可靠性较低 [10] - 模型目前仅能捕捉疾病间的“相关性”，无法建立“因果关系”，因此不能基于预测结果直接制定干预方案 [10] - 模型仅通过数据拟合验证，尚未经过前瞻性临床试验，也未在真实临床场景中进行测试 [10] 未来发展方向 - 模型架构经过精心设计，可兼容生物标志物、影像学乃至基因组学等更丰富的数据类型，未来通过整合这些多模态数据，有望发展为真正的多模态精准医疗工具 [11] - 未来可通过整合基因组数据、更丰富的代谢组学信息、诊断影像数据或可穿戴设备数据，进一步提升模型的预测能力 [10] - 随着训练数据的多元化、验证场景的临床化，此类AI模型有望真正融入医疗流程，为个性化健康管理提供方案，推动精准医疗从概念走向实践 [11]