Gengram
搜索文档
DeepSeek同款“外挂大脑”进军生命科学!中国团队发布Gengram,破解DNA天书
生物世界· 2026-01-31 14:00
核心观点 - Genos团队受DeepSeek“外挂大脑”模式启发,在生命科学领域提出Gengram创新模块,通过高效的检索机制替代部分繁重计算,解决了基因组基础模型的核心瓶颈,在提升实证性能的同时兼顾了机制可解释性 [2] - Gengram模块作为一个极轻量的插件,仅约20M参数,却能极大提升百亿参数基因组大模型的能力,实现了“小插件撬动大模型”的效果 [18] 技术突破与创新 - **核心瓶颈**:当前主流基因组大模型采用单碱基分词形式处理DNA序列,效率极低,难以在长达数亿的碱基序列中有效识别由特定碱基组合(Motif)决定的功能元件 [7][8] - **解决方案**:Gengram实现了“静态模体识别”与“动态语境推理”的结构解耦 [10] - **外置“基因字典”**:预构建涵盖1-6碱基长度的哈希字典,存储生物学常见的短序列组合,使模型可直接检索先验知识,无需从零推导 [10] - **动态门控机制**:模型学会根据基因组区域重要性动态调整,在关键区域(如编码区、调控区)积极调用记忆库,在无功能背景区则抑制以减少计算干扰 [10] - **关键发现**:模型训练时,当用于聚合信息的局部窗口大小设定为21bp(碱基对)时性能达到最优,这恰好对应DNA双螺旋旋转两圈的长度,使模型在处理一维序列时能隐约感知DNA的三维空间结构 [13][14][15] 性能表现 - **任务性能提升**:搭载Gengram后的大模型刷新了多项基因组任务的SOTA记录,在剪接位点识别等任务上AUC提升16.1% [6] - **数据能效比出色**:集成Gengram的模型仅需极小规模训练数据,便能在核心任务上媲美乃至超越训练数据规模领先其数倍乃至数十倍的公开模型 [18] - **应用基础**:实验基于Genos团队于去年10月发布的全球首个百亿级人类基因组基础模型“Genos”实现,该模型已应用于华大基因面向遗传病临床检测的大语言模型GeneT [18] 团队与行业背景 - **团队构成**:Genos团队结合了华大生命科学研究院的组学大数据经验与之江实验室的计算和模型能力,形成了“数据+算力”的强强联合,是攻克AI for Science领域壁垒的关键配置 [20] - **行业意义**:该工作展示了当AI深度对齐生物学逻辑时,在解读“生命之书”方面取得的重大进展 [21]
DeepSeek论文发表16天后,国内团队已经写出了模型的「生物字典」
机器之心· 2026-01-31 12:10
文章核心观点 - 文章介绍了一项名为Gengram(Genomic Engram)的创新技术模块,该模块将DeepSeek的Engram(条件记忆)思想应用于基因组学领域,通过为模型配备一个可查询的“外挂记忆库”来存储已知的DNA功能片段,从而显著提升了基因组基础模型的性能、效率和可解释性,并可能为构建新一代科学AI模型提供新的范式[4][30] 技术原理与创新 - **核心逻辑**:Gengram的核心逻辑是将“静态的Motif识别”与“动态的上下文推理”进行解耦处理,预先构建一个可微分的哈希表,存储所有长度为1到6的DNA片段(k-mer)对应的语义向量,相当于一本《基因组学实用短语手册》[11] - **动态门控**:模型引入了动态门控机制,可以结合上下文自主决定何时“查字典”,在关键区域(如外显子、启动子)激活检索,在非编码背景区域关闭检索以优化资源[12][13] - **效率优势**:由于DNA字符集极小(仅A/T/C/G/N),Gengram查表速度极快,几乎不增加计算开销[11] 性能表现与数据 - **模块规模**:Gengram是一个仅约2000万参数的轻量化插件[15] - **性能提升**:在8k和32k上下文版本的模型中,应用Gengram的模型在几乎所有任务中领先[16] - 剪接位点预测AUC提升了16.1%(从0.776到0.901)[17] - 表观遗传预测任务(H3K36me3)AUC提升了22.6%(从0.656到0.804)[17] - **数据杠杆效应**:集成Gengram的模型仅需极小规模的训练数据和较小的激活参数量,便能在核心任务上媲美乃至超越训练数据规模领先其数十倍的公开模型[18] - **架构通用性**:Gengram能跨越Dense与MoE等不同模型架构实现无缝部署,有效降低训练损失并加速收敛,并改善了MoE架构中的专家负载均衡问题[19] 对生物物理规律的理解 - **窗口大小发现**:在测试局部聚合窗口大小时,性能在窗口大小设置为21bp时达到峰值[23] - **原理对应**:21个碱基正好对应DNA双螺旋两个完整的旋转周期(每10.5个碱基旋转一圈),这意味着相隔21bp的碱基在物理空间上位于螺旋同一侧,具备相似特征[24][27] - **意义**:这表明Gengram在没有学习过结构生物学知识的前提下,通过计算自己“悟到”了DNA序列信息和空间相位规律[25] 范式启示与行业影响 - **效率范式转变**:从依赖模型“暴力记忆”转向使用“结构化知识外挂”,让核心模型从繁琐的模式记忆中解脱,专注于高级推理,预示着未来科学基础模型可能是“通用模型核心+多个领域专用插件”的协同形态[30] - **归纳偏置注入**:成功将DNA双螺旋的结构特性(10.5碱基/周期)显式转化为模型内部的局部窗口机制,作为先验知识注入模型[30] - **可解释性设计**:通过显式的Hash查询和门控记忆通路,模型在浅层即展现出对TATA-box等关键功能基元的高度敏感性,内部残差强度峰值与基因组功能边界精准对齐,实现了从“黑盒计算”向“具备生物学认知足迹”的演进[31] - **解决长程依赖**:Gengram使得仅在8K长度上训练的模型,获得了处理32K长序列的优异能力,为基因调控元件预测等复杂长序列问题开辟了新途径[31] 研发团队背景 - **团队构成**:研发团队“Genos Team”背景硬核,从开源信息推断涉及之江实验室和杭州华大生命科学研究院,构建了“AI + 生命科学”的交叉创新壁垒[33][34] - **基础模型**:论文实验基于人类基因组基础模型Genos实现,从可公开获取的信息来看,Genos多数指标超越了目前的业界顶流Evo-2[35]