Workflow
训练自2.67亿个单细胞数据的AI虚拟细胞模型——STATE,无需实验,预测细胞对药物或基因扰动的反应
生物世界·2025-07-07 11:17

虚拟细胞模型STATE的核心技术 - 基于1.67亿个细胞的观测数据和超过1亿个细胞的扰动数据进行训练,涵盖70种细胞系[3][7] - 由State Embedding(SE)模型和State Transition(ST)模型组成,SE处理未受干预数据,ST处理扰动反应数据[6] - 采用双向Transformer架构,利用自注意力机制捕捉生物和技术异质性[6] - 训练数据量超过现有任何模型,包括Tahoe-100M、Parse-PMBC、Replogle-Nadig等数据集[7] 模型性能突破 - 在Tahoe-100M基准测试中,扰动效应区分能力提升50%[7] - 识别差异表达基因的准确率是现有模型的2倍[7] - 首个在所有测试中优于线性基线模型的虚拟细胞模型[7] - 遵循Scaling Laws(标度律),性能随数据量增长呈幂律提升[9] 数据创新与整合 - 开发scBaseCount AI智能体,作为最大单细胞数据开源库统一数据收集标准[9] - 整合CRISPR基因编辑等扰动数据,直接捕捉基因间因果关系[8] - 能够建模技术噪声和批次效应,实现跨实验室数据整合[9] 应用场景展望 - 可模拟干细胞、癌细胞和免疫细胞对药物/基因扰动的反应[3] - 潜在应用模式类似AlphaFold,加速药物靶点发现流程[10] - 最终目标是通过计算机模拟数百万次干预,缩小实验假设范围[12] - 配套推出Cell_Eval评估框架和虚拟细胞挑战赛(冠军奖金10万美元)[12] 行业意义 - 针对90%临床候选药物失败问题,提升疗效预测准确性[3] - 首次在生物学领域验证Scaling Laws,延续DNA大语言模型Evo的研究路径[9] - 代表虚拟细胞模型第一代产品,未来将持续迭代提升精度[12][15]