Workflow
中心法则
icon
搜索文档
生物学的DeepSeek:阿里云发布LucaOne模型,首次统一DNA/RNA和蛋白质语言,能够理解中心法则
生物世界· 2025-06-19 17:44
核心观点 - 阿里云智能飞天实验室与中山大学联合开发了世界首个能同时理解核酸(DNA/RNA)和蛋白质序列的通用生物学基础模型LucaOne [3][4] - 该模型基于169861个物种的核酸和蛋白质序列进行预训练,参数规模达18亿,训练数据量相当于369.5亿个生物序列"单词" [4][16] - LucaOne通过统一编码39个生物分子"字符",首次实现对生命中心法则(DNA→RNA→蛋白质)的自发理解 [10][18] - 在7类生物信息学任务测试中表现超越专用模型,包括物种分类(GenusTax)、蛋白质相互作用(PPI)预测等,流感抗原预测准确率达100% [20][22][24] 技术突破 模型架构 - 采用Transformer架构构建统一基础模型,整合核酸和蛋白质序列处理能力 [11] - 设计包含39个字符的统一词汇表,覆盖4种核苷酸和20种标准氨基酸 [13] - 结合自监督学习与半监督学习,利用基因组注释等生物学先验知识加速训练 [14] 训练数据 - 整合RefSeq、UniProt、ColabFoldDB等权威数据库 [12] - 训练集涵盖16.9万种生物的核酸和蛋白质序列 [4] - 数据处理流程实现核苷酸与氨基酸表征的统一标准化 [15] 性能表现 核心能力 - 无监督条件下自发理解DNA→蛋白质翻译规则,Few-shot学习性能超越DNABert2+ESM2-3B组合模型 [18] - 生成的序列嵌入向量能有效聚类同源序列,反映深层生物学特征 [19] - 支持DNA/RNA/蛋白质的跨模态关联分析,突破传统单分子研究局限 [26] 任务表现 - 物种分类(GenusTax):分类准确率显著提升 [22] - 非编码RNA识别(ncRNAFam):优于基准模型 [22] - 流感抗原预测(InfA):达到100%准确率 [22] - 蛋白质相互作用(PPI/ncRPI):预测效果领先组合模型 [22] 行业影响 - 建立首个跨分子类型的生物计算统一框架,打破传统分析壁垒 [26] - 验证基础模型范式在生物信息学的适用性,降低下游任务开发成本 [24][26] - 为疾病机制研究、药物靶点发现等应用提供新型分析工具 [26] - 推动生物信息学进入通用大模型驱动的新发展阶段 [27]