不共享数据,也能联合训练,UCL团队用联邦学习重塑血液形态学检查
36氪·2026-02-13 17:55

研究核心成果 - 伦敦大学学院研究团队提出名为“MORPHFED”的联邦学习框架,用于白细胞形态分析,使各机构能在不交换原始训练数据的情况下进行协同训练 [1][2] - 该联邦模型利用来自多个临床站点的血液涂片数据,在保证完全数据隐私的同时,学习到稳健且域不变的特征表示 [1][2] - 与集中式训练相比,联邦训练在跨站点性能和对未知机构的泛化能力上表现出色 [1][2][5] 研究背景与挑战 - 血液形态学检查是诊断白血病、贫血等血液疾病的重要环节,但过程劳动强度大且高度依赖专家,在低收入和中等收入国家尤其面临专家稀缺的挑战 [1] - AI模型为自动化血液学诊断提供潜力,但面临数据异质性(染色方法、成像设备差异)导致的泛化能力下降,以及医疗数据隐私限制带来的跨机构数据共享难题 [2] 数据集与实验设计 - 研究使用了来自两个医疗中心的数据集,包含11种共同细胞类型,总计Client 1 (JHH) 21,200张图像和Client 2 (MUH) 8,985张图像,保留了染色和成像差异以测试异质环境下的泛化能力 [5][6] - 保留了来自巴塞罗那临床医院(Client 3)的12,992张图像作为独立外部验证集,用于测试模型在完全未见过机构数据上的表现 [8] - 研究采用了两类深度学习架构:ResNet-34和DINOv2-Small,并对比了四种联邦聚合策略:FedAvg、FedMedian、FedProx、FedOpt [9][12] 模型性能评估 - 在联合测试集评估中,联邦学习显著提升了性能,相比仅使用单个机构数据训练的模型(58% vs 52% 平衡准确率)[16] - 联邦模型的性能略低于对所有数据进行集中训练的模型,但在保持完整数据隐私的同时,仍能达到可比精度 [16] - 在外部分布数据泛化评估中,联邦方法(FedMedian和FedOpt)在完全未见过的Client 3数据上的泛化能力优于集中式训练(平衡准确率 67% vs 64%)[17][18] - FedMedian在少数类细胞识别上提升显著,例如带状中性粒细胞F1分数为0.62,相比集中式的0.30提升107%;早幼粒细胞F1分数为0.61,相比集中式的0.35提升74% [19] 联邦学习的行业意义与应用 - 联邦学习是一种“数据不出域、模型可协作”的协同机器学习范式,能有效保护数据隐私并满足严格的数据合规要求,成为破解医疗“数据孤岛”的关键技术 [20][21] - 在医疗影像领域,联邦学习使得不同医院能够在不共享原始影像数据的情况下联合训练模型,从而提升模型对不同设备、协议和患者群体的泛化能力 [21] - 已有公司如Owkin在推进联邦学习在医疗行业的应用,并开源了联邦学习软件Substra,用于临床研究和药物研发 [20][21] - 联邦学习所代表的“分布式协同智能”模式,正在成为未来医疗AI规模化部署的重要基础设施,为隐私保护型医学大模型的训练提供了可行路径 [22]

不共享数据,也能联合训练,UCL团队用联邦学习重塑血液形态学检查 - Reportify