DeepSeek论文发表16天后,国内团队已经写出了模型的「生物字典」
机器之心·2026-01-31 12:10

文章核心观点 - 文章介绍了一项名为Gengram(Genomic Engram)的创新技术模块,该模块将DeepSeek的Engram(条件记忆)思想应用于基因组学领域,通过为模型配备一个可查询的“外挂记忆库”来存储已知的DNA功能片段,从而显著提升了基因组基础模型的性能、效率和可解释性,并可能为构建新一代科学AI模型提供新的范式[4][30] 技术原理与创新 - 核心逻辑:Gengram的核心逻辑是将“静态的Motif识别”与“动态的上下文推理”进行解耦处理,预先构建一个可微分的哈希表,存储所有长度为1到6的DNA片段(k-mer)对应的语义向量,相当于一本《基因组学实用短语手册》[11] - 动态门控:模型引入了动态门控机制,可以结合上下文自主决定何时“查字典”,在关键区域(如外显子、启动子)激活检索,在非编码背景区域关闭检索以优化资源[12][13] - 效率优势:由于DNA字符集极小(仅A/T/C/G/N),Gengram查表速度极快,几乎不增加计算开销[11] 性能表现与数据 - 模块规模:Gengram是一个仅约2000万参数的轻量化插件[15] - 性能提升:在8k和32k上下文版本的模型中,应用Gengram的模型在几乎所有任务中领先[16] - 剪接位点预测AUC提升了16.1%(从0.776到0.901)[17] - 表观遗传预测任务(H3K36me3)AUC提升了22.6%(从0.656到0.804)[17] - 数据杠杆效应:集成Gengram的模型仅需极小规模的训练数据和较小的激活参数量,便能在核心任务上媲美乃至超越训练数据规模领先其数十倍的公开模型[18] - 架构通用性:Gengram能跨越Dense与MoE等不同模型架构实现无缝部署,有效降低训练损失并加速收敛,并改善了MoE架构中的专家负载均衡问题[19] 对生物物理规律的理解 - 窗口大小发现:在测试局部聚合窗口大小时,性能在窗口大小设置为21bp时达到峰值[23] - 原理对应:21个碱基正好对应DNA双螺旋两个完整的旋转周期(每10.5个碱基旋转一圈),这意味着相隔21bp的碱基在物理空间上位于螺旋同一侧,具备相似特征[24][27] - 意义:这表明Gengram在没有学习过结构生物学知识的前提下,通过计算自己“悟到”了DNA序列信息和空间相位规律[25] 范式启示与行业影响 - 效率范式转变:从依赖模型“暴力记忆”转向使用“结构化知识外挂”,让核心模型从繁琐的模式记忆中解脱,专注于高级推理,预示着未来科学基础模型可能是“通用模型核心+多个领域专用插件”的协同形态[30] - 归纳偏置注入:成功将DNA双螺旋的结构特性(10.5碱基/周期)显式转化为模型内部的局部窗口机制,作为先验知识注入模型[30] - 可解释性设计:通过显式的Hash查询和门控记忆通路,模型在浅层即展现出对TATA-box等关键功能基元的高度敏感性,内部残差强度峰值与基因组功能边界精准对齐,实现了从“黑盒计算”向“具备生物学认知足迹”的演进[31] - 解决长程依赖:Gengram使得仅在8K长度上训练的模型,获得了处理32K长序列的优异能力,为基因调控元件预测等复杂长序列问题开辟了新途径[31] 研发团队背景 - 团队构成:研发团队“Genos Team”背景硬核,从开源信息推断涉及之江实验室和杭州华大生命科学研究院,构建了“AI + 生命科学”的交叉创新壁垒[33][34] - 基础模型:论文实验基于人类基因组基础模型Genos实现,从可公开获取的信息来看,Genos多数指标超越了目前的业界顶流Evo-2[35]

DeepSeek论文发表16天后,国内团队已经写出了模型的「生物字典」 - Reportify