Workflow
同源搜索
icon
搜索文档
毫秒级搜索10亿生物序列!腾讯×浙大合作推出最强生物序列搜索AI工具——ERAST
生物世界· 2026-04-06 15:00
文章核心观点 - 腾讯生命科学实验室与浙江大学的研究团队在《自然-生物技术》发表论文,开发了名为ERAST的新型同源检测工具,该工具融合大语言模型与向量数据库技术,在十亿级生物序列数据规模下实现了毫秒级精准检索,计算效率相比传统工具TM-align提升约5万倍,并能够通过全局聚类分析揭示“功能未知”蛋白质的潜在进化联系,为生命科学领域的基础研究与应用提供了全新的高效技术范式 [2][3][6][14] 技术方案与创新 - ERAST的核心创新在于将前沿的大语言模型(如蛋白质语言模型ESM-2、DNA语言模型MAMBA)与高效的向量数据库相结合,将生物序列转化为高维向量(数学指纹)并建立索引,构建了目前全球规模最大的生物向量数据库,涵盖超10亿条蛋白质序列与3000万条核酸序列 [3][6] - ERAST的搜索流程采用三步走策略:1) 预检索过滤,根据元数据缩小范围;2) 向量检索,通过计算余弦距离在毫秒内完成;3) 后检索重排序,利用内置的EHSM评分模型进行二次打分,特别擅长识别进化关系遥远的“远亲”序列 [6] - 该系统支持对蛋白质和核苷酸序列的双重搜索,其集成向量数据库的网站与源代码已在GitHub开源,旨在推动全球科研应用 [14][15] 性能表现 - 在速度方面,ERAST在SCOPe40测试集上的搜索速度比广泛使用的基于结构的工具Foldseek快约50倍,比高精度工具TM-align快约5万倍,对于长达10万碱基对的DNA序列,比经典工具BLASTn快60倍 [9] - 在精度方面,ERAST在识别蛋白质同源关系时的Top-1命中精度显著优于TM-Vec、DHR、PLMSearch等所有主流深度学习方法,并且在处理“分布外”的新奇序列时展现出远超传统方法的稳健性 [10] 应用价值与行业影响 - ERAST不仅能实现快速同源搜索,还能进行大规模全局聚类分析,将整个UniRef90数据库中的蛋白质进行聚类,构建出超大规模的功能聚类网络 [11][12] - 通过该网络分析,研究发现94%的功能未知蛋白质簇都能与功能已知的蛋白质簇连接起来,这为推断大量“蛋白质暗物质”的可能功能和揭示其进化关系提供了前所未有的强大线索和全局视角 [12] - 该技术标志着AI for Science在生物信息学核心领域的重要突破,有望将研究人员从耗时的计算等待中解放出来,加速新药靶点发现、病原体追踪、酶工程设计等多个生命科学研究领域的进程 [14]