Workflow
ProTrek
icon
搜索文档
Nature Biotechnology:西湖大学原发杰/常兴团队等开发ProTrek,以自然语言“导航”蛋白质宇宙
生物世界· 2025-10-03 09:00
文章核心观点 - 西湖大学与香港科技大学(广州)联合团队开发出新型三模态蛋白质语言模型ProTrek,该模型通过融合蛋白质的氨基酸序列、三维结构和自然语言功能描述,实现了跨模态的精准蛋白质搜索,为蛋白质科学研究带来新范式 [3][9] 蛋白质研究的挑战与机遇 - 蛋白质序列、结构与功能之间的复杂关系是现代分子科学和药理学研究的基石,但传统分析工具如BLAST和Foldseek被限制在单一模态内进行成对比较,无法发现跨模态联系 [6] - 传统工具为追求计算效率而优先考虑局部相似性,常忽视蛋白质关键全局信息,导致UniProt数据库中约30%的蛋白质因与已知同源物系统发育距离遥远而无法被功能注释,成为"暗物质" [6] ProTrek模型的技术创新 - ProTrek采用创新的三模态统一框架,首次将蛋白质的氨基酸序列、三维结构和自然语言功能描述融合于一个统一语言模型中 [9][20] - 其核心是三模态对比学习策略,通过双向对齐框架在序列-结构、结构-功能、功能-序列三个维度上建立强关联 [9] - 模型架构融合了三个专用语言模型编码器:用于氨基酸序列的ESM编码器、用于自然语言功能描述的BERT编码器、以及用于三维结构编码的BERT式网络 [9] - 团队构建了包含四千万"蛋白质-文本"对的大规模数据集对ProTrek进行训练,该数据集规模超出已有文献的100倍 [9] ProTrek模型的性能表现 - 在标准蛋白质功能检索基准测试中,ProTrek表现比现有顶尖方法ProteinDT和ProtST提升了超过30-60倍 [11] - ProTrek具备"全局"表征学习能力,能克服传统工具的"局部"限制,成功识别序列和结构差异巨大但功能相似的"趋同进化"蛋白 [11] - ProTrek线上服务器收录超过50亿蛋白质数据信息,处理速度比传统工具快100倍以上,可在数秒内完成海量数据库检索 [15][22] 湿实验验证与应用潜力 - 通过湿实验验证,团队利用ProTrek从包含2亿蛋白质的数据库中寻找与人类尿嘧啶DNA糖基化酶功能相似的新蛋白 [15] - 搜索到的候选蛋白V1经过基因编辑实验验证,表现出比现有T碱基编辑器TSBE3 EK和gTBE更高的编辑效率和更低的脱靶效应 [15] - 该验证证明了ProTrek发现全新功能蛋白的能力,展示了从计算设计到实验验证的完整闭环能力 [15][23] 研究意义与行业影响 - ProTrek为解码蛋白质宇宙提供了全新工具,将蛋白质研究效率和深度提升到新高度 [18] - 该模型通过连接复杂分子数据与直观自然语言,促进了人类对蛋白质世界的理解 [18] - ProTrek为大规模注释未知蛋白质功能、加速新酶发现和药物设计提供了坚实技术支持 [18] - 该技术有望在蛋白质科学的多个领域催生新的科学发现,并为探索生命趋同进化的奥秘开辟新道路 [18]
华山论剑!蛋白质AI模型哪家强?西湖大学/百图生科推出首个全面测试基准
生物世界· 2025-06-24 16:45
蛋白质基础模型基准测试工具PFMBench 核心观点 - 蛋白质科学在AI浪潮中迎来革命性进展,但缺乏统一评估标准导致模型性能难以横向比较 [2][3] - PFMBench是首个全面评估蛋白质基础模型(PFM)的基准测试工具,涵盖38项任务和17个模型,解决行业评估碎片化痛点 [10][12] - 多模态模型(如ProTrek)在11项代表任务中胜率达75%,显著优于纯序列模型(如ESM-2仅50%) [19][22] 任务库设计 - 模块化架构覆盖8大领域:注释、溶解度、定位、突变、互作、结构、生产和零样本任务 [12] - 精选28项核心任务偏差低于5%,如溶解度预测DeepSol的AUROC达0.85,突变任务PETA_TEM相关性仅0.14 [13] - 通过聚类分析将38项任务归纳为11组代表任务,实现90%效率提升 [18] 模型库组成 - 17个模型分为四类:纯序列(8个)、序列-结构(3个)、序列-功能(3个)、序列-结构-功能(3个) [16] - 筛选12个核心模型标准:酶分类任务(EC)性能需达ESM-2的85%以上 [14] - ProTrek以EC分数0.764领先,ProtGPT2垫底(0.697) [14][22] 关键发现 - 多模态模型通过对比学习对齐序列与功能语义,在定位任务中边界清晰度优于纯序列模型 [19] - 零样本评估(如ProteinGym)与监督任务结果无相关性,ESM-2零样本Spearman 0.439高于ProTrek的0.359 [20] - 参数扩增性价比低:ESM-2参数从1.5亿增至150亿仅6/8任务显著提升,DoRA微调在结合任务超越Adapter [21] 行业影响 - 首次建立标准化评测体系,终结模型开发者"自卖自夸"现象 [25] - 开源代码推动社区复现与扩展,加速抗体设计/酶优化等生物医药应用 [25] - 证明多模态融合(结构/功能数据)是未来发展方向 [19][25]