预训练模型

搜索文档
生物学的DeepSeek:阿里云发布LucaOne模型,首次统一DNA/RNA和蛋白质语言,能够理解中心法则
生物世界· 2025-06-19 17:44
生命的语言以 DNA、RNA 和蛋白质的形式编码,构成了生命的基石,但由于其复杂性,解读起来颇具挑战。传统的计算方法往往难以整合这些分子的信息,从而 限制了对生物系统的全面理解。 撰文丨王聪 编辑丨王多鱼 排版丨水成文 LucaOne 在 基于 169861 种物种的核酸和 蛋白质序列进行了预训练,通过大规模数据整合和半监督学习, LucaOne 展现出了对诸如 DNA 翻译为蛋白质等关 键生物学原理的理解 。利用少样本学习, 它能够有效地理解分子生物学的 中心法则 ,并在涉及 DNA、RNA 或蛋白质输入的任务中表现出色 。我们的研究结果 突显了统一基础模型在解决复杂生物学问题方面的潜力,为生物信息学研究提供了一个灵活的框架,并有助于更好地解读生命的复杂性。 自然语言处理 (NLP) 技术的进步,尤其是预训练模型的发展,为解读生命的语言带来了新的可能。想象一下,如果存在一种"翻译器",能够像我们理解人类语 言一样,读懂构成生命的核心"语言"——DNA、RNA 和蛋白质序列中蕴含的复杂信息,那将会怎样? 2025 年 6 月 18 日,阿里云智能飞天实验室 李兆融 、 贺勇 及中山大学 施莽 教授等,在 Na ...