Workflow
蛋白质基础模型
icon
搜索文档
华山论剑!蛋白质AI模型哪家强?西湖大学/百图生科推出首个全面测试基准
生物世界· 2025-06-24 16:45
蛋白质基础模型基准测试工具PFMBench 核心观点 - 蛋白质科学在AI浪潮中迎来革命性进展,但缺乏统一评估标准导致模型性能难以横向比较 [2][3] - PFMBench是首个全面评估蛋白质基础模型(PFM)的基准测试工具,涵盖38项任务和17个模型,解决行业评估碎片化痛点 [10][12] - 多模态模型(如ProTrek)在11项代表任务中胜率达75%,显著优于纯序列模型(如ESM-2仅50%) [19][22] 任务库设计 - 模块化架构覆盖8大领域:注释、溶解度、定位、突变、互作、结构、生产和零样本任务 [12] - 精选28项核心任务偏差低于5%,如溶解度预测DeepSol的AUROC达0.85,突变任务PETA_TEM相关性仅0.14 [13] - 通过聚类分析将38项任务归纳为11组代表任务,实现90%效率提升 [18] 模型库组成 - 17个模型分为四类:纯序列(8个)、序列-结构(3个)、序列-功能(3个)、序列-结构-功能(3个) [16] - 筛选12个核心模型标准:酶分类任务(EC)性能需达ESM-2的85%以上 [14] - ProTrek以EC分数0.764领先,ProtGPT2垫底(0.697) [14][22] 关键发现 - 多模态模型通过对比学习对齐序列与功能语义,在定位任务中边界清晰度优于纯序列模型 [19] - 零样本评估(如ProteinGym)与监督任务结果无相关性,ESM-2零样本Spearman 0.439高于ProTrek的0.359 [20] - 参数扩增性价比低:ESM-2参数从1.5亿增至150亿仅6/8任务显著提升,DoRA微调在结合任务超越Adapter [21] 行业影响 - 首次建立标准化评测体系,终结模型开发者"自卖自夸"现象 [25] - 开源代码推动社区复现与扩展,加速抗体设计/酶优化等生物医药应用 [25] - 证明多模态融合(结构/功能数据)是未来发展方向 [19][25]