Foldseek - 财报，业绩电话会，研报，新闻

Foldseek

搜索文档

生物世界· 2026-01-27 16:00

行业技术突破 - 诺奖得主David Baker团队的最新研究展示了一项重要突破：利用条件性RFdiffusion模型设计能够高亲和力结合亲水性蛋白质靶点的结合蛋白 [4] - 该技术的设计策略是通过条件性RFdiffusion生成与靶蛋白边缘β链形成几何匹配的扩展β片层结构，并特别设计氢键基团来互补靶蛋白上的极性基团 [5][6] - 实验验证表明，该技术针对KIT、PDGFRɑ等多个重要蛋白靶点设计了蛋白结合剂，获得了皮摩尔到纳摩尔级的高亲和力，且表现出高度特异性，KIT复合物晶体结构与设计模型高度一致 [9] - 此项技术突破了传统计算蛋白质设计的局限，显著扩展了可设计蛋白结合剂的靶标范围，特别是解决了针对亲水性相互作用表面的挑战，对于药物开发和蛋白质功能研究具有重要价值 [7] 培训课程概览 - 文章主体内容为推广一系列与AI蛋白质设计、合成生物学及计算机辅助药物设计相关的线上培训课程，宣称AI蛋白质设计是2026年最受关注的技术 [7] - 课程主办方宣称已联合清华大学、北京大学、西湖大学、浙江大学、中国科学技术大学、天津大学、协和药物研究所、上海药物研究所举办培训六十七期，参会学员达**7000余人**，学员好评极高，其中不乏论文发表于Nature、Cell、Science等国际顶刊 [7] - 主要开设六大课程：AI蛋白质设计线上直播课、AI抗菌肽设计线上直播课、合成生物学与基因线路设计线上直播课、CADD计算机辅助药物设计线上直播课、AIDD人工智能药物发现与设计系统培训录播课、AIDD人工智能药物发现与设计进阶顶刊复现录播课 [8] AI蛋白质设计课程内容 - 该课程旨在教授2026年最新最前沿的蛋白质设计工具及流程，让学员快速掌握David Baker的核心方法 [12] - 培训内容涵盖蛋白质结构预测（实操AlphaFold2、AlphaFold3、pymol、Foldseek）、蛋白质大语言模型（实操ESM系列、ProGen）以及多种蛋白质设计方法（实操ProteinMPNN、LigandMPNN、Rfdiffusion、RFdiffusion3等） [12] - 课程为期六天，理论结合实操，提供服务器使用，并讲解十二篇Nature/Science/Cell/JACS顶刊文献，以让学员了解当下蛋白质设计的核心热点与优势 [12] - 详细课程大纲分为六个部分，包括：蛋白质相关的深度学习简介、深度学习与蛋白质结构预测、固定主链蛋白质序列设计、深度学习蛋白质结构设计、面向功能的蛋白质序列设计、基于深度学习的蛋白质挖掘与改造应用 [12][16][21][24][28][32] AI抗菌肽设计课程内容 - 该课程聚焦于利用生成式人工智能设计抗菌肽，以应对抗生素耐药性挑战 [35] - 课程将精讲并复现基于蛋白质语言模型嵌入的潜在扩散模型——AMP-Diffusion，该模型由宾夕法尼亚大学和杜克大学研究人员合作开发，能够通过探索序列空间快速发现具有广谱抗菌活性（包括对多重耐药菌株）且低细胞毒性的候选抗菌肽 [35] - 课程内容分为五个部分，涵盖：基础环境与抗菌肽入门、Python编程基础与AMP-Diffusion架构解读、AMP-Diffusion模型实践与序列生成、计算筛选排序与设计验证、AMP-Diffusion论文精解与实战复现 [37][41][47][50][53] 合成生物学与基因线路设计课程内容 - 该课程旨在帮助学员建立将基因线路设计应用于解决真实科研与产业问题的能力，讲师具备横跨原核生物、真核模型到哺乳动物细胞系统的广谱跨物种实战经验 [57] - 课程设计分为五个核心部分，引导学员完成从工程思维建立、工具使用、诊断调优到智能设计与计算驱动设计的完整学习路径 [58][70][91][100][112] - 课程包含大量实操案例，如“番茄红素工程菌设计”、“动态基因线路（Toggle Switch）构建与模拟”、“利用无细胞系统进行通路快速优化”以及“使用计算工具（如FBA、ODE建模）预测和优化细胞行为” [63][87][107][113][120] CADD计算机辅助药物设计课程内容 - 该课程旨在系统讲解计算机辅助药物设计的核心原理与操作流程，涵盖从分子建模、虚拟筛选到分子动力学模拟的完整技术体系 [129][130] - 课程分为六个部分，内容包括：pymol使用与一般蛋白-配体分子对接、虚拟筛选、多类型分子对接（蛋白-蛋白、蛋白-金属离子、蛋白-DNA/RNA）、蛋白-蛋白相互作用预测、Linux下的分子动力学模拟、以及CADD驱动的抗体与酶工程设计实战 [131][138][147][156][158][163] AIDD人工智能药物发现课程内容 - 该系列包含系统培训录播课和进阶顶刊复现录播课，目标是让学员掌握人工智能在药物发现中的应用，具备AIDD模型构建和数据分析能力 [170][171] - 系统培训课程内容涵盖AIDD概述、环境搭建、RDKit工具包使用、药物数据库获取、以及深度学习（神经网络、图神经网络、Transformer）在药物设计中的基本原理与应用 [174] - 进阶顶刊复现课程则侧重于深度学习在化学反应预测、分子生成（如使用扩散模型、NLP）、以及将AI方法应用于真实药物研发场景（如酶工程、高亲和力小分子筛选）的案例分析与复现 [172][173] 讲师背景 - AI蛋白质设计课程主讲老师来自国内超顶尖课题组，在学术界和工业界均有丰富算法开发应用经验，主要从事蛋白质结构预测和设计研究，相关工作成果已在PNAS、Angew. Chem. Int. Ed.、Nature、Science等期刊发表，其课题组已发表文献**300余篇** [177] - AI抗菌肽设计课程主讲老师来自南开大学院士课题组，从事AI抗菌肽设计和蛋白质设计研究，成果发表于New England、Plos one等期刊 [178] - 合成生物学课程主讲老师为拥有海外背景的合成生物学专家，拥有6年基因线路设计经验，曾于中科院合成生物学重点实验室工作，目前致力于工业界代谢工程应用 [179] - CADD课程主讲老师来自江南大学，具备大量CADD及分子模拟项目经验，熟练掌握AutoDock Vina、Schrödinger、GROMACS、AlphaFold3、RFdiffusion等工具 [180] - AIDD课程主讲老师来自天津大学，拥有十余年计算机算法研究和程序设计经验，研究方向涉及深度学习药物发现和药物合成路径设计，发表SCI高水平论文**10篇** [181] 课程安排与费用 - 各直播课程授课时间集中在2026年1月至2月，通过腾讯会议线上直播，采用理论+实操模式 [183] - 课程费用根据公费或自费有所不同：AI蛋白质设计直播课公费价**6880元**/人，自费价**6380元**/人；其他直播课（AI抗菌肽设计、CADD、合成生物学）公费价**6380元**/人，自费价**5880元**/人 [184] - 录播课程（AIDD系统培训与进阶顶刊复现）公费价**4980元**/人，自费价**4680元**/人 [185] - 推出多项优惠：报二送一、提前报名缴费可享**800元**优惠（限前15名）、报名直播课赠送往期课程回放等 [8][185]

Nature Biotechnology：西湖大学原发杰/常兴团队等开发ProTrek，以自然语言“导航”蛋白质宇宙

生物世界· 2025-10-03 09:00

文章核心观点 - 西湖大学与香港科技大学（广州）联合团队开发出新型三模态蛋白质语言模型ProTrek，该模型通过融合蛋白质的氨基酸序列、三维结构和自然语言功能描述，实现了跨模态的精准蛋白质搜索，为蛋白质科学研究带来新范式 [3][9] 蛋白质研究的挑战与机遇 - 蛋白质序列、结构与功能之间的复杂关系是现代分子科学和药理学研究的基石，但传统分析工具如BLAST和Foldseek被限制在单一模态内进行成对比较，无法发现跨模态联系 [6] - 传统工具为追求计算效率而优先考虑局部相似性，常忽视蛋白质关键全局信息，导致UniProt数据库中约30%的蛋白质因与已知同源物系统发育距离遥远而无法被功能注释，成为"暗物质" [6] ProTrek模型的技术创新 - ProTrek采用创新的三模态统一框架，首次将蛋白质的氨基酸序列、三维结构和自然语言功能描述融合于一个统一语言模型中 [9][20] - 其核心是三模态对比学习策略，通过双向对齐框架在序列-结构、结构-功能、功能-序列三个维度上建立强关联 [9] - 模型架构融合了三个专用语言模型编码器：用于氨基酸序列的ESM编码器、用于自然语言功能描述的BERT编码器、以及用于三维结构编码的BERT式网络 [9] - 团队构建了包含四千万"蛋白质-文本"对的大规模数据集对ProTrek进行训练，该数据集规模超出已有文献的100倍 [9] ProTrek模型的性能表现 - 在标准蛋白质功能检索基准测试中，ProTrek表现比现有顶尖方法ProteinDT和ProtST提升了超过30-60倍 [11] - ProTrek具备"全局"表征学习能力，能克服传统工具的"局部"限制，成功识别序列和结构差异巨大但功能相似的"趋同进化"蛋白 [11] - ProTrek线上服务器收录超过50亿蛋白质数据信息，处理速度比传统工具快100倍以上，可在数秒内完成海量数据库检索 [15][22] 湿实验验证与应用潜力 - 通过湿实验验证，团队利用ProTrek从包含2亿蛋白质的数据库中寻找与人类尿嘧啶DNA糖基化酶功能相似的新蛋白 [15] - 搜索到的候选蛋白V1经过基因编辑实验验证，表现出比现有T碱基编辑器TSBE3 EK和gTBE更高的编辑效率和更低的脱靶效应 [15] - 该验证证明了ProTrek发现全新功能蛋白的能力，展示了从计算设计到实验验证的完整闭环能力 [15][23] 研究意义与行业影响 - ProTrek为解码蛋白质宇宙提供了全新工具，将蛋白质研究效率和深度提升到新高度 [18] - 该模型通过连接复杂分子数据与直观自然语言，促进了人类对蛋白质世界的理解 [18] - ProTrek为大规模注释未知蛋白质功能、加速新酶发现和药物设计提供了坚实技术支持 [18] - 该技术有望在蛋白质科学的多个领域催生新的科学发现，并为探索生命趋同进化的奥秘开辟新道路 [18]

Protein Research

Multimodal Language Model

Multimodal Language Model