Workflow
PerturbDiff
icon
搜索文档
用Diffusion构建「AI虚拟细胞」,14项指标霸榜!Mila唐建团队破解单细胞「破坏性」测序难题
量子位· 2026-03-12 15:48
文章核心观点 - Mila(魁北克人工智能研究所)唐建团队开发的PerturbDiff模型,通过将“细胞群体的概率分布”视作一个可加噪、去噪的随机变量,在泛函空间进行扩散建模,从根本上解决了单细胞微扰响应预测中因数据非配对和传统静态分布假设导致的泛化难题,从而在多项权威基准测试中以压倒性优势刷新了单细胞响应预测的SOTA记录,是构建高保真“虚拟细胞”道路上的重大突破 [1][3][6][28] 模型原理与创新 - **认知升维与核心假设突破**:模型摒弃了传统方法将微扰后细胞分布视为唯一固定结果的静态假设,认识到生物系统的混沌性,首次将建模目标设定为“细胞分布的分布”,即一个在分布空间中取值的随机变量,以拟合生物微扰固有的多变性 [4][6] - **关键数学工具与工程实现**:模型引入再生核希尔伯特空间(RKHS)与核均值嵌入(KME)工具,将复杂细胞种群压缩为高维函数空间中的一个“点”,并在此空间进行泛函扩散 通过严密的数学证明,将抽象的泛函扩散过程等价于对每个单细胞独立注入欧氏噪声,从而架起了理论与工程的桥梁,实现了高效建模 [9][10][11][12] - **损失函数的内生性优势**:在PerturbDiff框架下,最大均值差异(MMD)不再是外挂的正则化项,而是从反向去噪目标的变分下界中自然导出的、与单细胞空间中真实分布与预测分布之间MMD平方绝对等价的度量 这迫使模型在高阶统计特征上对齐,有效避免了因单细胞基因表达高度稀疏(零膨胀常高达95%以上)而使用均方误差(MSE)会导致模型陷入“预测全0”次优解的问题 [14][15][16][17] 性能表现与数据优势 - **基准测试全面霸榜**:在包含超1亿单细胞、1100种药物的全球最大药物响应基准Tahoe100M以及PBMC免疫信号基准测试中,PerturbDiff在14项评估指标上实现了全面领先 [3][18] - **核心生物学指标表现卓越**:模型在差异表达基因(DEGs)预测的核心生物学指标(如AUPRC, AUROC)上展现出压倒性优势,因其真正学到了微扰的“系统性偏移”,这对于新药研发中识别关键基因的开启或关闭至关重要 [17][20] - **训练范式与数据利用**:采用“边缘分布预训练”策略,利用CellxGene数据集中6100万个无干预的单细胞转录组数据对扩散模型进行无条件流形预训练 这不仅大幅提升了模型在极低样本量(如每种微扰仅数百个细胞)下的微调性能,更在预训练检查点上观察到了显著的零样本预测能力,其生物学洞察在于微扰轨迹部分嵌套于自然界已存在的细胞状态流形中 [22][23][25][26] 行业意义与前景 - **理论根基的重新审视**:PerturbDiff的成功如同CNN之于图像识别、Transformer之于文本生成,展示了符合数据内在规律的归纳偏置对于发挥数据全部价值的决定性作用,推动了计算表型建模理论根基的进步 [28] - **虚拟细胞开发的里程碑**:该模型是AI在构建高保真“虚拟细胞”道路上的一次重大突破,使得能够无限次试错、精准模拟扰动响应的终极“AI虚拟细胞”愿景更近一步 [3][29]