AI虚拟细胞
搜索文档
用Diffusion构建「AI虚拟细胞」,14项指标霸榜!Mila唐建团队破解单细胞「破坏性」测序难题
量子位· 2026-03-12 15:48
文章核心观点 - Mila(魁北克人工智能研究所)唐建团队开发的PerturbDiff模型,通过将“细胞群体的概率分布”视作一个可加噪、去噪的随机变量,在泛函空间进行扩散建模,从根本上解决了单细胞微扰响应预测中因数据非配对和传统静态分布假设导致的泛化难题,从而在多项权威基准测试中以压倒性优势刷新了单细胞响应预测的SOTA记录,是构建高保真“虚拟细胞”道路上的重大突破 [1][3][6][28] 模型原理与创新 - **认知升维与核心假设突破**:模型摒弃了传统方法将微扰后细胞分布视为唯一固定结果的静态假设,认识到生物系统的混沌性,首次将建模目标设定为“细胞分布的分布”,即一个在分布空间中取值的随机变量,以拟合生物微扰固有的多变性 [4][6] - **关键数学工具与工程实现**:模型引入再生核希尔伯特空间(RKHS)与核均值嵌入(KME)工具,将复杂细胞种群压缩为高维函数空间中的一个“点”,并在此空间进行泛函扩散 通过严密的数学证明,将抽象的泛函扩散过程等价于对每个单细胞独立注入欧氏噪声,从而架起了理论与工程的桥梁,实现了高效建模 [9][10][11][12] - **损失函数的内生性优势**:在PerturbDiff框架下,最大均值差异(MMD)不再是外挂的正则化项,而是从反向去噪目标的变分下界中自然导出的、与单细胞空间中真实分布与预测分布之间MMD平方绝对等价的度量 这迫使模型在高阶统计特征上对齐,有效避免了因单细胞基因表达高度稀疏(零膨胀常高达95%以上)而使用均方误差(MSE)会导致模型陷入“预测全0”次优解的问题 [14][15][16][17] 性能表现与数据优势 - **基准测试全面霸榜**:在包含超1亿单细胞、1100种药物的全球最大药物响应基准Tahoe100M以及PBMC免疫信号基准测试中,PerturbDiff在14项评估指标上实现了全面领先 [3][18] - **核心生物学指标表现卓越**:模型在差异表达基因(DEGs)预测的核心生物学指标(如AUPRC, AUROC)上展现出压倒性优势,因其真正学到了微扰的“系统性偏移”,这对于新药研发中识别关键基因的开启或关闭至关重要 [17][20] - **训练范式与数据利用**:采用“边缘分布预训练”策略,利用CellxGene数据集中6100万个无干预的单细胞转录组数据对扩散模型进行无条件流形预训练 这不仅大幅提升了模型在极低样本量(如每种微扰仅数百个细胞)下的微调性能,更在预训练检查点上观察到了显著的零样本预测能力,其生物学洞察在于微扰轨迹部分嵌套于自然界已存在的细胞状态流形中 [22][23][25][26] 行业意义与前景 - **理论根基的重新审视**:PerturbDiff的成功如同CNN之于图像识别、Transformer之于文本生成,展示了符合数据内在规律的归纳偏置对于发挥数据全部价值的决定性作用,推动了计算表型建模理论根基的进步 [28] - **虚拟细胞开发的里程碑**:该模型是AI在构建高保真“虚拟细胞”道路上的一次重大突破,使得能够无限次试错、精准模拟扰动响应的终极“AI虚拟细胞”愿景更近一步 [3][29]
构建AI虚拟细胞基础模型,「百曜科技」获数千万元天使轮融资|早起看早期
36氪· 2025-10-24 11:05
公司融资与技术进展 - 百曜科技完成数千万元天使轮融资,由峰瑞资本领投,顺禧资本跟投,明德资本担任独家财务顾问 [3] - 公司创始团队在2023年发布了知识增强、跨物种、亿级数据量的单细胞预训练基础模型,并快速迭代发布首个基于图结构的单细胞预训练基础模型 [3] - 单细胞基础模型采用预训练+微调路径,展现出优异的泛化能力与下游应用潜力,为构建可产业落地的AI虚拟细胞平台奠定技术基础 [3] - 模型融合生物学先验知识,整合超亿级单细胞基因表达数据,并联合人、小鼠两个物种进行跨物种预训练 [3] - 公司研究成果曾作为封面文章发布于《Cell Research》、《Advanced Science》和《NSR》等权威期刊 [3] 行业背景与发展驱动力 - 近两三年,在单细胞测序等技术演进下,"AI虚拟细胞"成为热门赛道,多组学数据爆发式增长为模型训练提供了数据基础 [4] - 自注意力机制的自监督预训练策略出现,为处理高维复杂生命科学数据提供了强大工具 [4] - 中美等国积极推动利用基础AI模型进行生命模拟,中国"十四五"规划强调加快生物技术和生物产业发展,美国FDA倡导在抗体药物研发中以AI模型替代传统动物实验 [4] - 海外企业如Xaira Therapeutics、Asimov已率先探索,将AI虚拟细胞模型应用于肿瘤新靶点发现、干细胞定向分化、工程细胞改造等方向 [4] 技术应用与行业前景 - 利用AI对细胞进行模拟,能在基础科研与工业药物研发中回答关键问题,细胞模型将向多模态演进,最终实现对整个细胞动态生命过程的推演 [5] - 构建AI虚拟细胞是极具复杂性的宏大工程,对算力、数据要求极高,打造接近完整的虚拟细胞基础模型投入规模或达百亿美金级别 [5] - 当前AI虚拟细胞技术仍处发展早期,首批虚拟细胞大模型已初步验证从0到1的理论路径,该领域具有很强的马太效应 [5] - 虚拟细胞依托生物组学数据和人工智能大模型,构建细胞的"数字孪生",有望赋能细胞发育、药物敏感度、抗体生产等场景,大幅降低试错成本与周期 [6] - 海量多组学数据与Transformer算法融合,能够构建高保真虚拟细胞,打破机理研究与应用开发间的壁垒,把生命科学带入可模拟、可编程的新纪元 [6]
构建AI虚拟细胞基础模型,「百曜科技」获数千万元天使轮融资 | 36氪首发
36氪· 2025-10-24 08:17
公司融资与团队背景 - 百曜科技完成数千万元天使轮融资,由峰瑞资本领投,顺禧资本、百度风投跟投,明德资本担任独家财务顾问 [1] - 创始团队在2023年发布了知识增强、跨物种、亿级数据量的单细胞预训练基础模型,并快速迭代发布了首个基于图结构的单细胞预训练基础模型 [1] - 团队研究成果曾作为封面文章发布于《Cell Research》、《Advanced Science》和《NSR》等权威期刊 [1] 公司核心技术 - 构建的单细胞基础模型采用预训练+微调路径,展现出优异的泛化能力与广泛的下游应用潜力 [1] - 模型训练中融合生物学先验知识,使学习更具方向性,输出结果更贴合生物学逻辑 [1] - 模型首次整合超亿级单细胞基因表达数据,并联合人、小鼠两个物种进行跨物种预训练,学习共通的生命规律 [1] - 团队拥有AI虚拟细胞关键算法和高质量数据上的复合优势 [5] 行业发展驱动力 - 以单细胞测序为代表的数据获取技术成熟,引发多组学数据爆发式增长,为模型训练提供数据基础 [2] - 自注意力机制的自监督预训练策略出现,为处理高维复杂生命科学数据提供了强大工具 [2] - 中美等国积极推动利用基础AI模型进行生命模拟,中国十四五规划强调加快生物技术发展,美国FDA倡导在抗体药物研发中以AI模型替代动物实验 [2] 行业应用与竞争格局 - 海外企业如Xaira Therapeutics、Asimov已率先探索将AI虚拟细胞模型应用于肿瘤新靶点发现、干细胞定向分化、工程细胞改造等方向 [2] - 构建涵盖多模态数据、接近完整的虚拟细胞基础模型投入规模或达百亿美金级别,该领域具有很强的马太效应 [3] - AI虚拟细胞技术仍处发展早期,首批虚拟细胞大模型已初步验证从0到1的理论路径 [3] 技术价值与前景 - 利用AI模拟细胞能够在基础科研与工业药物研发中回答关键问题,细胞模型将向多模态演进,最终推演整个细胞动态生命过程 [3] - 虚拟细胞构建细胞的数字孪生,有望赋能细胞发育、药物敏感度、抗体生产等场景,大幅降低试错成本与周期 [4] - 该平台将打破机理研究与应用开发间的壁垒,把生命科学带入可模拟、可编程的新纪元 [5]