Workflow
全球首个百亿参数人类基因组基础模型Genos发布!开启基因组智能分析的新时代
生物世界·2025-10-23 16:00

模型发布与核心意义 - 华大生命科学研究院与之江实验室于2025年10月23日联合发布全球首个百亿参数人类基因组通用基础模型Genos [2] - 该模型标志着基因组研究从“读出”碱基序列迈向“读懂”生命底层逻辑的关键转折 [4] - 相关成果已于10月22日发表于国际学术期刊《GigaScience》 [5] 模型技术特点与架构 - Genos是针对人类基因组深度优化的基础模型,支持高达百万碱基对的超长上下文分析,并实现单碱基分辨率的精准识别 [3] - 模型系统整合了人类泛基因组参考联盟等多个权威资源,首次汇聚全球636个“端粒到端粒”级别的高质量人类基因组作为训练数据,覆盖不同人群以全面代表人类遗传多样性 [8] - 采用混合专家架构,在拥有百亿级参数庞大知识总量的同时,推理成本和资源消耗远低于同等规模模型 [9] 模型性能表现 - 在基因组元件识别、远程调控预测等经典评测任务中,Genos在超过一半的任务中表现优于所有现有模型 [11] - 在长序列评测任务中表现远超同类模型,展现了强大的上下文分析能力 [11] - 在直接面向临床应用的致病性突变解读任务中,实现了92%的准确性,当结合之江实验室的021科学基础模型后,准确率高达98.3% [13] - 综合多项评测结果,Genos在各项核心任务中的表现均全面超越了现有最佳水平 [13] 模型开源与应用生态 - 模型将全面彻底地开源开放,提供12亿参数和100亿参数两个版本,模型权重、架构细节与完整训练流程已在GitHub、Hugging Face等平台依据MIT协议公开发布 [21] - 模型被深度整合进DCS Cloud云平台,用户无需复杂配置即可一键调用,每个账户提供高达10万次的免费推理服务,极大降低使用门槛 [21] - 在科研领域,模型能仅凭DNA序列“秒级”预测RNA表达谱,将过去数周甚至数月的分析流程极大提速 [21] - 在临床应用领域,模型与GeneT深度思考模型结合,能为遗传疾病诊断提供专家级多模态解读 [22] - 在个人健康领域,模型已整合进BGE平台,赋能个人基因组报告解读 [22] 未来发展规划 - 公司联合发起“十万长读长大人群联盟”和“百亿细胞计划”两项大科学计划 [23] - “十万长读长大人群联盟”将完成10万人的“端粒到端粒”级别完整基因组测序,为模型提供高质量训练数据 [23] - “百亿细胞计划”将完成百亿单细胞测序,助力基因和细胞的融合大模型开发 [23]