Workflow
SaprotHub开源平台
icon
搜索文档
西湖大学原发杰团队发布SaprotHub开源平台:让生物学家能够轻松应用蛋白质语言模型,
生物世界· 2025-10-27 18:00
文章核心观点 - 西湖大学团队于2025年10月24日在《Nature Biotechnology》发表研究,推出结合蛋白质一维序列与三维结构的“结构感知”蛋白质语言大模型Saprot,并在此基础上构建了开源平台SaprotHub [2] - 该平台旨在打破AI开发者与生物学家之间的技术鸿沟,通过一站式解决方案将先进蛋白质语言模型的训练和使用民主化,赋能全球生命科学研究者 [2][5][8] - SaprotHub是一个融合了前沿AI大模型、开源工具和全球社区的完整生态系统,并作为开放蛋白质模型联盟(OPMC)推动全球科研协作的关键第一步 [3][8] 技术创新与模型性能 - Saprot模型创新性地提出“结构感知”词汇表,将蛋白质一维氨基酸序列与其三维局部结构信息进行联合编码 [9] - 模型基于AlphaFold2预测的数千万个蛋白质结构,使用64块NVIDIA A100 GPU,经过数月训练完成 [9] - 模型性能在数十项蛋白质功能预测任务中超越ESM-2等业界顶尖模型,并在14项基准测试中表现更优 [9][19] - Saprot于2024年5月登顶ProteinGym蛋白质突变效应预测排行榜,并在此后近半年持续排名第一 [9] - 相关论文被引用超过200次,模型累计下载量逾70万次,并获得大量社区真实生物实验验证 [9] 平台构建与开源工具 - 团队基于免费的Google Colab云平台开发了“一键式”开源训练平台ColabSaprot [10] - 该平台通过上万行代码编写,将原本繁琐的蛋白质语言模型微调、功能预测等任务简化为网页上的几次鼠标点击 [10] - 平台提供了详细的教程视频,方便研究者快速上手,涵盖从模型训练到使用的各个方面 [10] - SaprotHub采用低秩适应矩阵(LoRA)技术保存模型权重,并建立了模型与数据仓库,实现模型的便捷共享与迭代 [11][14] - 平台已存储数十种不同类型的蛋白质训练数据集和可直接使用的模型,并开发了相应的搜索引擎供研究者快速检索 [11] 全球协作与社区生态 - SaprotHub是开放蛋白质模型联盟(OPMC)理念的先行者,该联盟汇聚了西湖大学、麻省理工学院、首尔大学、哈佛大学、慕尼黑工业大学、微软等全球数十家顶尖科研机构的研究力量 [11] - 通过将ColabSaprot开源平台与SaprotHub无缝耦合,OPMC成员和全球研究者可以便捷地分享、下载和迭代模型,共建开源生态 [11][16] - 该生态已进一步集成了ESM-2、ProtT5等更多业界主流模型,开启了蛋白质科学的“大航海时代” [16] 应用验证与实际成效 - 在用户研究中,12位没有AI背景的生物学研究者使用该平台,取得了与AI研究者相媲美的成果 [12][15] - 一家生物技术公司利用ColabSaprot对工业用木聚糖酶进行改造,成功将酶的活性提升了2.55倍 [18] - 研究人员利用平台对TDG基因编辑工具进行优化,预测出的多个新版本在实验中展现出翻倍的编辑效率 [18] - 平台被用于设计更亮的绿色荧光蛋白(GFP),其中一个新设计的蛋白,其荧光亮度达到了原始版本的8倍以上 [18] - 这些成功案例证明SaprotHub能够将AI的预测能力转化为现实世界中的生物学功能突破 [13][16][19]