清华AI找药登Science!一天筛选10万亿次,解决AlphaFold到药物发现的最后一公里
量子位·2026-01-09 12:09

文章核心观点 - 清华大学研究团队在《Science》上发表论文,推出AI驱动的超高通量药物虚拟筛选平台DrugCLIP,该平台通过深度对比学习技术,实现了基因组级别的药物虚拟筛选,在速度、范围和准确性上取得突破性进展,为针对大量未成药靶点(占人类蛋白靶点的90%)的药物发现开辟了新路径 [1][6][11] 技术突破与平台能力 - 平台核心能力:DrugCLIP平台利用AI从海量化学分子中快速筛选出与疾病相关蛋白结合的候选药物分子 [3] - 筛选速度:在128核CPU加8张GPU的计算节点上,平台日处理能力达10万亿次蛋白-分子配对计算,相比传统方法实现了百万倍的速度提升 [4][36] - 技术原理:采用对比学习训练两个AI编码器,分别为蛋白质结合口袋和化学分子生成特征向量(画像),将筛选问题转化为高效的向量相似度检索问题 [22][23][32] - 预训练创新:通过从蛋白质结构数据中构造550万组“假分子”与“假口袋”样本进行预训练,再以真实数据微调,提升了模型的泛化能力和精度 [29][30] 解决的传统药物筛选痛点 - 传统方法慢:以筛选1万个靶点、每个靶点面对10⁹个候选分子为例,传统分子对接需完成约10¹³次计算,即使使用最先进工具也需要2亿CPU天 [12][13] - 传统方法无从下手:许多疾病相关蛋白缺乏实验测得的二维结构,且有效分子被大量无效分子噪声淹没 [15][16] - 传统方法范围窄:受限于算力成本,筛选工作难以在全基因组尺度上推进,只能围绕热门靶点进行 [18] 验证效果与实验成果 - 基准测试表现:在标准虚拟筛选基准测试DUD-E、LIT-PCBA中,DrugCLIP在富集有效分子方面明显优于传统分子对接工具和多种已有AI方法,且在LIT-PCBA上筛选速度远超其他方法 [37][38] - 模型稳定性:对结构误差、陌生蛋白家族及未见过的分子类型均表现稳定,未出现场景失灵问题 [39] - 抑郁症靶点验证:针对一个抑郁症相关蛋白,从筛选出的78个分子中找到8个激动剂,其中最佳分子的结合能力达到21nM(100nM以下为优秀水平),在细胞系中显示显著活性 [42][43] - 去甲肾上腺素转运体(NET)验证:针对2024年刚解析出结构的NET靶点(与抑郁症、多动症、疼痛相关),从160万个候选分子中筛出约100个高评分分子,实验显示其中15%为有效抑制剂,12个分子的结合能力优于现有抗抑郁药物安非他酮 [44] - 基于预测结构的验证:针对仅由AlphaFold2预测结构、无已知抑制剂的癌症与帕金森病相关蛋白TRIP12,从160万个候选分子中筛选出约50个高评分分子,并通过冷冻电镜解析复合物结构验证了结果的可信度 [47][48][49][45] 首次完成基因组规模筛选 - 全局筛选成就:研究团队首次完成了覆盖人类基因组规模的虚拟筛选项目,覆盖约1万个蛋白靶点、2万个结合口袋,分析了超过5亿个小分子,并富集出200万余个高潜力活性分子 [54] - 数据开放:构建了目前已知最大规模的蛋白-配体筛选数据库,相关数据已面向全球科研社区全部对外开放 [7][55][59] 行业影响与未来方向 - 解决未成药靶点难题:人体内约2万个编码蛋白质的基因中,目前仅有10%的蛋白靶点拥有成熟药物,剩余90%尚未找到药,DrugCLIP为此提供了新的解决方案 [10][11] - 打通关键研发通道:该平台打通了从AlphaFold结构预测到药物发现的关键通道,为后AlphaFold时代的创新药物发现带来新可能性 [6][55] - 未来合作方向:未来将与科研产业生态合作伙伴深度合作,在抗癌、传染病、罕见病等方向加速新靶点与First-in-class药物的发现 [64]