Science:清华大学推出AI虚拟筛选平台DrugCLIP,实现全基因组药物发现,24小时速通10万亿分子!
生物世界·2026-01-09 12:41

文章核心观点 - 清华大学研究团队开发出名为DrugCLIP的AI驱动超高通量药物虚拟筛选平台,首次实现了全基因组规模的虚拟筛选,将传统方法需数年的计算任务压缩至24小时内,效率提升最高达1000万倍,标志着药物发现进入“后AlphaFold时代”[3][4][18] 技术突破与性能 - 计算效率革命:传统分子对接方法筛选10亿分子对应单个靶点需上万CPU核心运行两周,而DrugCLIP将虚拟筛选转化为“语义搜索”任务,利用对比学习使蛋白口袋和小分子在共享潜在空间中对齐,实现超快速筛选[6] - 框架与训练:研究采用两阶段训练策略,先利用自创ProFSA策略生成550万伪蛋白-配体对进行预训练,再使用4万个实验测定的复合物结构微调,使模型不依赖精确局部几何结构,仅凭AlphaFold预测结构也能做出准确结合预测[6] - 筛选精度验证:在标准测试集DUD-E和LIT-PCBA上,DrugCLIP的EF1%指标全面超越传统对接方法和深度学习模型,速度提升数个数量级[9] 实验验证与应用成果 - 已验证靶点(NET):针对去甲肾上腺素转运蛋白(NET)进行筛选,从100个候选分子中找出15个抑制率超60%的化合物,命中率达15%,其中两个抑制剂活性优于常用抗抑郁药安非他酮且结构新颖[11] - 未开发靶点(TRIP12):针对既无实验结构也无已报道抑制剂的蛋白TRIP12,仅凭AlphaFold预测结构结合自研GenPack口袋生成优化模块,成功获得17.5%的命中率,两个先导化合物亲和力达微摩尔级别[12] - 全基因组筛选规模:对约1万个人类蛋白的AlphaFold预测结构筛选了5亿个小分子,评估了10万亿个蛋白-配体对,仅用8块A100 GPU在24小时内完成,产出超过200万个候选分子,覆盖2万多个口袋,靶点数量是现有最大生物活性数据库ChEMBL的两倍以上[14] - 数据公开:所有筛选数据已通过GenomeScreenDB数据库公开,涵盖从激酶到嗅觉受体等各类靶点,为学术界提供前所未有的资源[16] 行业影响与未来展望 - 降低研发门槛:该技术大幅降低新药研发门槛,使缺乏高通量筛选设备的团队也能进行大规模虚拟筛选[18] - 探索新治疗思路:为系统性探索整个可成药基因组提供可能,将为罕见病、难治性疾病提供全新治疗思路[18] - 技术融合前景:随着AlphaFold3等全原子结构预测模型的出现,结合DrugCLIP的高速筛选能力,系统性地探索整个可成药基因组已成为可能[18]

Science:清华大学推出AI虚拟筛选平台DrugCLIP,实现全基因组药物发现,24小时速通10万亿分子! - Reportify