基于1.4万真实数据,华盛顿大学/微软等提出GigaTIME,绘制全景肿瘤免疫微环境图谱
微软微软(HK:04338) 36氪·2026-02-12 19:37

研究核心成果 - 微软研究院、华盛顿大学与Providence Genomics的研究团队开发了多模态AI框架GigaTIME,能够从常规H&E病理切片生成虚拟的多重免疫荧光图谱,从而对肿瘤免疫微环境进行系统性建模 [1][3] - 该研究已发表于顶级期刊《Cell》,其核心亮点在于使用AI将H&E切片转化为空间蛋白质组学数据,支持大规模的临床发现和患者分层,并揭示了新的空间和组合蛋白质激活模式 [4][5] 技术原理与模型架构 - GigaTIME模型采用基于嵌套U型网络的补丁式编码器-解码器框架,能同时捕获图像的局部细微特征和全局组织结构 [13] - 模型接收256x256像素的H&E图像块,通过编码器提取特征,再由解码器重构为具有空间分辨率的虚拟mIF图像,最终输出涵盖21个预设蛋白质通道的像素级别活性图谱 [13][15] - 训练策略结合了Dice损失与二元交叉熵损失,在8块NVIDIA A100 GPU上进行了250个epoch的训练,批处理大小为16,学习率为0.0001 [17] 训练数据与质量控制 - 研究团队借助COMET平台,从21张H&E切片中采集了441张配对的mIF图像,覆盖21个关键生物标志物 [7] - 通过VALIS工具进行像素级图像对齐,使用StarDist算法进行细胞识别与切割,并依据Dice系数筛选高质量区域,最终从包含4千万个细胞的初始数据中精选出1千万个高质量细胞用于训练 [9][17] - 研究引入了来自组织微阵列的乳腺癌与脑癌样本作为外部验证集,以检验模型面对新样本类型和未见癌种时的泛化能力 [9] 应用队列与数据规模 - 构建了两个大规模虚拟人群队列:第一个来自Providence Health医疗集团,包含旗下51家医院和1,000多家诊所的14,256名癌症患者的H&E切片,覆盖24种主要癌症类型和306个细分亚型 [11] - 第二个队列取自公共数据库TCGA,包含10,200例以早期、未经治疗的手术样本为主的H&E切片 [11] - 应用GigaTIME框架后,最终从Providence Health队列生成了近30万张虚拟mIF图像 [1][3] 模型性能验证 - 在技术验证上,GigaTIME在像素、细胞和切片三个层面均显著优于基线模型CycleGAN [18] - 在像素层面,GigaTIME在21个蛋白通道中的15个上表现更优,例如在DAPI通道上,其Dice系数达到0.72,远超简单统计基线的0.12 [18] - 在细胞层面,GigaTIME在DAPI通道的相关性达到0.59,而CycleGAN仅为0.03;在切片层面,GigaTIME的DAPI通道相关系数高达0.98,所有通道平均为0.56,而CycleGAN均接近0 [18] 临床发现与生物学洞见 - 利用14,256名患者的近30万张虚拟mIF图像,系统分析了虚拟蛋白表达与20种临床生物标志物的关联,共识别出1,234个显著关联 [19] - 在泛癌分析的175个关联中,发现高肿瘤突变负荷和高微卫星不稳定性与多种免疫浸润标志物的激活增强显著相关,同时揭示了KMT2D突变与免疫标志物呈强正相关、KRAS突变呈负相关等新线索 [21] - 在特定癌种及亚型中揭示了大量特异性关联,例如脑癌中T-bet与TP53突变的强相关,以及肺腺癌中PRKDC突变与免疫响应标志物的关联强于肺鳞状细胞癌 [21] - 所有主要发现在TCGA独立队列中得到验证,核心发现高度一致,癌亚型层面斯皮尔曼相关系数达0.88 [23] 行业比较与商业前景 - 该领域吸引了全球顶尖学术机构探索:斯坦福大学的HEX模型能预测40种生物标志物的空间表达;加州大学旧金山分校的DeepHeme系统实现了23类骨髓细胞的精准分类 [28] - 产业界已有商业实践:Reveal Biosciences开发从病理图像提取“数字生物标志物”的平台;Optellum的肺结节诊断平台已获FDA批准 [28] - Providence Health虚拟人群在泛癌层面发现的显著关联比TCGA队列多33%,凸显了大规模真实世界数据的独特价值 [25]

基于1.4万真实数据,华盛顿大学/微软等提出GigaTIME,绘制全景肿瘤免疫微环境图谱 - Reportify