Foldseek

搜索文档
Nature Biotechnology:西湖大学原发杰/常兴团队等开发ProTrek,以自然语言“导航”蛋白质宇宙
生物世界· 2025-10-03 09:00
文章核心观点 - 西湖大学与香港科技大学(广州)联合团队开发出新型三模态蛋白质语言模型ProTrek,该模型通过融合蛋白质的氨基酸序列、三维结构和自然语言功能描述,实现了跨模态的精准蛋白质搜索,为蛋白质科学研究带来新范式 [3][9] 蛋白质研究的挑战与机遇 - 蛋白质序列、结构与功能之间的复杂关系是现代分子科学和药理学研究的基石,但传统分析工具如BLAST和Foldseek被限制在单一模态内进行成对比较,无法发现跨模态联系 [6] - 传统工具为追求计算效率而优先考虑局部相似性,常忽视蛋白质关键全局信息,导致UniProt数据库中约30%的蛋白质因与已知同源物系统发育距离遥远而无法被功能注释,成为"暗物质" [6] ProTrek模型的技术创新 - ProTrek采用创新的三模态统一框架,首次将蛋白质的氨基酸序列、三维结构和自然语言功能描述融合于一个统一语言模型中 [9][20] - 其核心是三模态对比学习策略,通过双向对齐框架在序列-结构、结构-功能、功能-序列三个维度上建立强关联 [9] - 模型架构融合了三个专用语言模型编码器:用于氨基酸序列的ESM编码器、用于自然语言功能描述的BERT编码器、以及用于三维结构编码的BERT式网络 [9] - 团队构建了包含四千万"蛋白质-文本"对的大规模数据集对ProTrek进行训练,该数据集规模超出已有文献的100倍 [9] ProTrek模型的性能表现 - 在标准蛋白质功能检索基准测试中,ProTrek表现比现有顶尖方法ProteinDT和ProtST提升了超过30-60倍 [11] - ProTrek具备"全局"表征学习能力,能克服传统工具的"局部"限制,成功识别序列和结构差异巨大但功能相似的"趋同进化"蛋白 [11] - ProTrek线上服务器收录超过50亿蛋白质数据信息,处理速度比传统工具快100倍以上,可在数秒内完成海量数据库检索 [15][22] 湿实验验证与应用潜力 - 通过湿实验验证,团队利用ProTrek从包含2亿蛋白质的数据库中寻找与人类尿嘧啶DNA糖基化酶功能相似的新蛋白 [15] - 搜索到的候选蛋白V1经过基因编辑实验验证,表现出比现有T碱基编辑器TSBE3 EK和gTBE更高的编辑效率和更低的脱靶效应 [15] - 该验证证明了ProTrek发现全新功能蛋白的能力,展示了从计算设计到实验验证的完整闭环能力 [15][23] 研究意义与行业影响 - ProTrek为解码蛋白质宇宙提供了全新工具,将蛋白质研究效率和深度提升到新高度 [18] - 该模型通过连接复杂分子数据与直观自然语言,促进了人类对蛋白质世界的理解 [18] - ProTrek为大规模注释未知蛋白质功能、加速新酶发现和药物设计提供了坚实技术支持 [18] - 该技术有望在蛋白质科学的多个领域催生新的科学发现,并为探索生命趋同进化的奥秘开辟新道路 [18]