Workflow
基因组大模型
icon
搜索文档
DeepSeek同款“外挂大脑”进军生命科学!中国团队发布Gengram,破解DNA天书
生物世界· 2026-01-31 14:00
核心观点 - Genos团队受DeepSeek“外挂大脑”模式启发,在生命科学领域提出Gengram创新模块,通过高效的检索机制替代部分繁重计算,解决了基因组基础模型的核心瓶颈,在提升实证性能的同时兼顾了机制可解释性 [2] - Gengram模块作为一个极轻量的插件,仅约20M参数,却能极大提升百亿参数基因组大模型的能力,实现了“小插件撬动大模型”的效果 [18] 技术突破与创新 - **核心瓶颈**:当前主流基因组大模型采用单碱基分词形式处理DNA序列,效率极低,难以在长达数亿的碱基序列中有效识别由特定碱基组合(Motif)决定的功能元件 [7][8] - **解决方案**:Gengram实现了“静态模体识别”与“动态语境推理”的结构解耦 [10] - **外置“基因字典”**:预构建涵盖1-6碱基长度的哈希字典,存储生物学常见的短序列组合,使模型可直接检索先验知识,无需从零推导 [10] - **动态门控机制**:模型学会根据基因组区域重要性动态调整,在关键区域(如编码区、调控区)积极调用记忆库,在无功能背景区则抑制以减少计算干扰 [10] - **关键发现**:模型训练时,当用于聚合信息的局部窗口大小设定为21bp(碱基对)时性能达到最优,这恰好对应DNA双螺旋旋转两圈的长度,使模型在处理一维序列时能隐约感知DNA的三维空间结构 [13][14][15] 性能表现 - **任务性能提升**:搭载Gengram后的大模型刷新了多项基因组任务的SOTA记录,在剪接位点识别等任务上AUC提升16.1% [6] - **数据能效比出色**:集成Gengram的模型仅需极小规模训练数据,便能在核心任务上媲美乃至超越训练数据规模领先其数倍乃至数十倍的公开模型 [18] - **应用基础**:实验基于Genos团队于去年10月发布的全球首个百亿级人类基因组基础模型“Genos”实现,该模型已应用于华大基因面向遗传病临床检测的大语言模型GeneT [18] 团队与行业背景 - **团队构成**:Genos团队结合了华大生命科学研究院的组学大数据经验与之江实验室的计算和模型能力,形成了“数据+算力”的强强联合,是攻克AI for Science领域壁垒的关键配置 [20] - **行业意义**:该工作展示了当AI深度对齐生物学逻辑时,在解读“生命之书”方面取得的重大进展 [21]