蛋白质语言模型
搜索文档
Cell重磅:AI大模型,设计生成人类单克隆抗体,对抗新型病毒
生物世界· 2025-11-10 12:05
人工智能驱动的抗体药物发现技术突破 - 研究团队开发了名为MAGE(单克隆抗体生成器)的First in Class人工智能模型,该模型基于蛋白质语言模型(PLM),无需初始抗体模板即可根据目标抗原序列生成配对的人类抗体可变重链与轻链序列[6][8] - MAGE模型通过对Progen2(一种通过普通蛋白质序列预训练的自回归解码器大语言模型)进行微调实现,利用自注意力机制捕获输入序列中的复杂依赖关系,通过下一标记预测策略从氨基酸序列中学习规律[8] - 该技术能够生成具备多样化序列特征的抗体,包括不同的重/轻链可变区基因使用模式、体细胞超突变(SHM)程度以及在训练数据中未曾出现的新型互补决定区(CDR)[8] 模型验证与实验效果 - 针对SARS-CoV-2野生型受体结合域(RBD),在实验验证的20个MAGE生成抗体中,有9个(45%)成功确认结合特异性,其中1个抗体对SARS-CoV-2的体外中和效力优于10纳克/毫升[9] - 针对训练数据中代表性不足的呼吸道合胞病毒A(RSV-A)融合前F蛋白,MAGE生成的23个抗体中有7个(30%)通过实验验证了结合活性[9] - 针对未在训练数据中出现的H5/TX/24流感病毒血凝素(HA)抗原,18个MAGE设计抗体中有5个(28%)通过验证,展现了模型的零样本学习新抗原的能力[10] 技术优势与应用前景 - MAGE是首创的无需提供抗体序列模板即可设计出具有明确靶标结合功能的新型人类抗体的AI模型,突破了现有方法仅限于抗体重新设计且需要初始抗体模板的限制[4][6] - 冷冻电镜(cryo-EM)结构解析表明,MAGE生成的抗体具有多样化的结合模式,并能在关键结合界面引入影响功能的关键氨基酸残基[10] - 该技术标志着抗体开发从传统的基于发现的实验方法向计算驱动方法的重大转变,有望解决传统抗体发现过程费力、缓慢且成本效益低的问题[3]
西湖大学原发杰团队发布SaprotHub开源平台:让生物学家能够轻松应用蛋白质语言模型,
生物世界· 2025-10-27 18:00
文章核心观点 - 西湖大学团队于2025年10月24日在《Nature Biotechnology》发表研究,推出结合蛋白质一维序列与三维结构的“结构感知”蛋白质语言大模型Saprot,并在此基础上构建了开源平台SaprotHub [2] - 该平台旨在打破AI开发者与生物学家之间的技术鸿沟,通过一站式解决方案将先进蛋白质语言模型的训练和使用民主化,赋能全球生命科学研究者 [2][5][8] - SaprotHub是一个融合了前沿AI大模型、开源工具和全球社区的完整生态系统,并作为开放蛋白质模型联盟(OPMC)推动全球科研协作的关键第一步 [3][8] 技术创新与模型性能 - Saprot模型创新性地提出“结构感知”词汇表,将蛋白质一维氨基酸序列与其三维局部结构信息进行联合编码 [9] - 模型基于AlphaFold2预测的数千万个蛋白质结构,使用64块NVIDIA A100 GPU,经过数月训练完成 [9] - 模型性能在数十项蛋白质功能预测任务中超越ESM-2等业界顶尖模型,并在14项基准测试中表现更优 [9][19] - Saprot于2024年5月登顶ProteinGym蛋白质突变效应预测排行榜,并在此后近半年持续排名第一 [9] - 相关论文被引用超过200次,模型累计下载量逾70万次,并获得大量社区真实生物实验验证 [9] 平台构建与开源工具 - 团队基于免费的Google Colab云平台开发了“一键式”开源训练平台ColabSaprot [10] - 该平台通过上万行代码编写,将原本繁琐的蛋白质语言模型微调、功能预测等任务简化为网页上的几次鼠标点击 [10] - 平台提供了详细的教程视频,方便研究者快速上手,涵盖从模型训练到使用的各个方面 [10] - SaprotHub采用低秩适应矩阵(LoRA)技术保存模型权重,并建立了模型与数据仓库,实现模型的便捷共享与迭代 [11][14] - 平台已存储数十种不同类型的蛋白质训练数据集和可直接使用的模型,并开发了相应的搜索引擎供研究者快速检索 [11] 全球协作与社区生态 - SaprotHub是开放蛋白质模型联盟(OPMC)理念的先行者,该联盟汇聚了西湖大学、麻省理工学院、首尔大学、哈佛大学、慕尼黑工业大学、微软等全球数十家顶尖科研机构的研究力量 [11] - 通过将ColabSaprot开源平台与SaprotHub无缝耦合,OPMC成员和全球研究者可以便捷地分享、下载和迭代模型,共建开源生态 [11][16] - 该生态已进一步集成了ESM-2、ProtT5等更多业界主流模型,开启了蛋白质科学的“大航海时代” [16] 应用验证与实际成效 - 在用户研究中,12位没有AI背景的生物学研究者使用该平台,取得了与AI研究者相媲美的成果 [12][15] - 一家生物技术公司利用ColabSaprot对工业用木聚糖酶进行改造,成功将酶的活性提升了2.55倍 [18] - 研究人员利用平台对TDG基因编辑工具进行优化,预测出的多个新版本在实验中展现出翻倍的编辑效率 [18] - 平台被用于设计更亮的绿色荧光蛋白(GFP),其中一个新设计的蛋白,其荧光亮度达到了原始版本的8倍以上 [18] - 这些成功案例证明SaprotHub能够将AI的预测能力转化为现实世界中的生物学功能突破 [13][16][19]
Cell子刊:生成式AI模型,从头生成抗菌肽,对抗抗生素耐药难题
生物世界· 2025-09-07 12:03
行业背景与挑战 - 抗生素耐药性的发展速度已远超新型抗生素的发现能力 [2] - 抗菌肽作为传统抗生素的有前景替代品,具有广谱抗菌活性,但其发现过程面临巨大序列空间和复杂结构活性关系等挑战 [2] 技术突破:AMP-Diffusion模型 - 研究团队开发了一种名为AMP-Diffusion的潜在扩散模型,该模型基于蛋白质语言模型嵌入并对抗菌肽序列进行微调 [3] - AMP-Diffusion直接在源自ESM-2蛋白质语言模型的潜在空间上操作,无需对蛋白质潜在空间进行训练,实现了与基础模型的深度集成 [7] - 该模型能够通过系统地探索序列空间来快速发现抗菌肽候选物 [3] 研究成果与实验验证 - 使用AMP-Diffusion生成了50000个候选抗菌肽序列,并合成了46个排名靠前的候选肽进行验证 [8] - 76%的测试候选抗菌肽具有低毒性且能杀灭细菌 [9] - 验证显示候选抗菌肽具有广谱抗菌活性,包括对多重耐药菌株的活性,其主要作用模式为膜通透性和去极化 [8] - 在临床前小鼠模型中,先导抗菌肽降低了细菌载量,其疗效与多粘菌素B和左氧氟沙星相当,且未检测到不良反应 [8][9] 技术平台价值 - AMP-Diffusion为设计抗生素提供了一个强大的平台 [8] - 该研究展示了生成式人工智能与蛋白质语言模型结合在精确控制多肽属性方面的潜力 [7]
Nature Materials:清华大学高华健/邵玥团队团队提出“分子邮编”策略,多肽修饰LNP,实现mRNA的器官选择性递送
生物世界· 2025-09-02 16:30
技术突破 - 开发多肽编码器官选择性靶向(POST)方法 通过特定氨基酸序列调控脂质纳米颗粒(LNP)表面 实现全身给药后mRNA向肝外器官的高效特异性递送[4][7] - POST系统核心机制依赖于多肽序列与血浆蛋白结合亲和力的力学优化 形成特异性蛋白冠 分子动力学模拟证实其力学引导机制[4][9] - 该策略突破传统LNP电荷依赖的递送限制 器官选择性和递送效率对多肽编码序列呈现单个氨基酸级别的敏感性[7][9] 应用范围 - POST平台适用于多种LNP配方 支持多重mRNA递送及反义寡核苷酸(ASO)和基因编辑技术的肝外器官靶向[9] - 成功实现向肝脏、肺、脾脏、胎盘、骨髓、脂肪组织和睾丸等器官的选择性递送 显著拓宽器官靶向适用范围[4][9] - 基于人工智能框架开发Transformer蛋白质语言模型 生成对Vtn蛋白具高机械亲和力的多肽序列RRRYRR 实验证实可实现肺部选择性mRNA递送[9] 行业意义 - 为精准递送系统提供模块化可编程设计框架 实现自下而上的LNP表面工程化调控[4][11] - 多肽的数字化编程特性使LNP-环境界面调控更具理性设计范围 提升功能灵活性与治疗潜力[3][11] - 技术突破为疫苗、癌症治疗和再生疗法领域带来新发展机遇 推动非病毒mRNA递送系统临床转化[2]
Nature子刊:谈攀/洪亮团队开发蛋白质语言模型VenusMine,成功挖掘高效的PET水解酶
生物世界· 2025-07-08 16:18
塑料废弃物与PET降解酶研究 - 聚对苯二甲酸乙二醇酯(PET)是使用量最大的饮料包装材料,广泛应用于碳酸饮料、饮用水、果汁等包装瓶以及食品、化工、药品包装等领域,带来了重大环境挑战 [2] - 现有PET水解酶存在序列多样性狭窄、性能欠佳的问题,实际应用受限 [2] VenusMine蛋白质大模型 - 研究团队开发了基于蛋白质大模型的酶挖掘模型VenusMine,融合蛋白质语言模型(PLM)与三维结构分析 [6] - 该模型能通过蛋白质序列、结构和功能之间的隐含映射规则,在海量蛋白数据库中高效挖掘同源性低但功能优异的酶分子 [2] - 以IsPETase晶体结构为模板,VenusMine识别并聚类目标蛋白质,通过PLM评估溶解性和热稳定性筛选出34种蛋白质进行生化验证 [7] KbPETase酶的性能突破 - 从Kibdelosporangium banguiense发现的KbPETase表现出极高的催化效率和热稳定性 [3] - KbPETase的最适酶活是模板IsPETase的97倍 [3] - 在30-60°C范围内,14种候选蛋白质表现出PET降解活性,其中KbPETase的熔解温度比IsPETase高32°C [8] - KbPETase的催化效率超过了FastPETase和LCC [9] - X射线晶体学和分子动力学模拟显示KbPETase具有保守的催化结构域和增强的分子内相互作用,支撑了其功能和热稳定性的提升 [12] 研究方法与成果 - 研究展示了一种新颖的深度学习方法,用于发现具有增强性能的天然PET水解酶 [13] - 研究成果发表在Nature Communications期刊,题为"Harnessing Protein Language Model for Structure-Based Discovery of Highly Efficient and Robust PET Hydrolases" [2]
北京大学发表最新Cell论文
生物世界· 2025-05-28 15:30
研究背景与意义 - 活体动物体内精确控制蛋白质激活的通用策略对蛋白质功能增益研究至关重要[1] - 现有技术依赖复杂蛋白质构建体设计,可能改变目标蛋白质的天然功能和相互作用[4] - 生物正交断键反应(BCR)与遗传密码扩展(GCE)技术结合,可利用非天然氨基酸暂时掩蔽目标蛋白活性位点[4] 技术突破 - 开发CAGE-Prox vivo策略,通过引入反式环辛烯-酪氨酸(TCOY)暂时关闭蛋白功能,再通过小分子诱导恢复活性[7] - 利用机器学习流程进化出能精准识别TCOY的氨酰-tRNA合成酶突变体(PylRS)[7][10] - 采用3,6-二甲基-1,2,4,5-四嗪(Me2Tz)触发TCOY的生物正交剪切反应释放天然酪氨酸[10] 技术优势 - 体内操作无需紫外线,穿透深层组织[10] - 靶向递送与化学激活双重精准控制[10] - 通用平台可精准调控酶活性、蛋白质互作、抗体功能等[10] 应用场景 - 精准杀伤肿瘤细胞:通过EGF-PA靶向递送失活LF,Me2Tz激活后诱导肿瘤细胞凋亡[9] - 定向激活肿瘤细胞焦亡:重新激活LF触发Caspase3/8级联反应切割GSDME[11] - 构建更安全双特异性抗体:TCOY修饰抗CD3抗体避免细胞因子风暴,提高安全性[11] 研究意义 - 为活体条件下时间分辨生物学研究和按需治疗干预提供通用平台[13] - 实现活体动物中按需激活蛋白质及调控蛋白-蛋白相互作用[13]