Workflow
AlphaMissense
icon
搜索文档
这才是 AI 近年来最有价值的成就,却被很多人忽视
36氪· 2025-12-01 08:15
有一个英文单词,它由189,819 个字母组成。在常规语速下,要念完它需要花足足三个半小时——它是我们体内的肌联蛋白(titin)的化学全名。 肌联蛋白是人体内最大的蛋白质,由超过 3.4 万个氨基酸组成。相比于只含几百上千个氨基酸的常见蛋白质,肌联蛋白实在是太大了。于是,科学家决定 化用古希腊神话中巨人神族的名字"泰坦"(Titan),将它命名为 titin。 然而,自科学家 1954 年发现肌联蛋白已经过去 70 多年,我们依然不知道这位"巨人"的真实模样。要用传统的实验方法解析出这个庞然大物的完整结构, 几乎是不可能的。 蛋白质的结构由其氨基酸序列决定,我们能否直接通过氨基酸序列,预测出蛋白质的三维结构?这曾是生物学领域最艰难、最核心的挑战之一。 但是,2020 年 11 月 30 日,AlphaFold2 出现了。 DeepMind 将蛋白质数据库(PDB)中实验得到的蛋白质结构"喂"给了神经网络,让 AI 学习序列与结构之间的关系。最终,他们做到了科学家过去无法想 象的事:在那年的"全球蛋白质结构预测比赛"(CASP)中,AlphaFold2 凭借氨基酸序列预测蛋白质结构的准确率超过了 90%,直逼 ...
新AI模型可精准锁定人体致病突变
科技日报· 2025-11-26 08:25
文章核心观点 - 开发出名为popEVE的人工智能模型 能精准锁定人类蛋白质中最易导致疾病的突变并对危害程度排序 有望彻底改变遗传疾病诊断方式 [1] 技术原理与创新 - 模型研发基于数十万个不同物种的进化数据及全人类群体遗传变异信息 [1] - 创新性地将进化数据与英国生物库 基因组聚合数据库两大资源库相结合 [2] - 通过分析健康人群中存在的基因变异来校准对人类疾病的预测 [2] - 可解析约2万种人类蛋白质的关键区域与可变异区域 [1] 模型性能优势 - 在分析超过3 1万个患有严重发育障碍儿童家庭遗传数据时 在98%病例中将共同突变标记为最具破坏性变异 [2] - 其表现优于包括深度思维公司AlphaMissense在内的同类先进工具 [2] - 能识别致病突变并对突变给人体造成的危害程度进行排序 克服现有工具大多只能预测是否危险却难以评估危害程度的局限 [1] 应用潜力与发现 - 首次建立起能对全蛋白质组突变进行危害排序的模型 可帮助医生优先关注破坏性最强的变异 [2] - 在探寻新致病基因时 发现123个此前被认为与发育障碍无关的基因 其中104个仅在个别病例中出现 [2] - 尤其适用于缺乏病例参考的罕见突变 传统依赖患者群体数据的方法对此束手无策 [1]
获得诺奖后,DeepMind推出DNA模型——AlphaGenome,全面理解人类基因组,尤其是非编码基因
生物世界· 2025-06-26 16:06
核心观点 - DeepMind推出新型AI工具AlphaGenome,能够全面准确地预测人类DNA序列中的单碱基突变对基因调控的影响,处理长达100万碱基对的DNA序列并输出高分辨率预测结果[2] - AlphaGenome在多项基准测试中达到顶尖水平,在24项评估中有22项优于最佳外部模型,26项评估中有24项与最佳模型持平或更优[18] - 该模型特别适合研究罕见突变和疾病机制,例如预测白血病患者中的非编码基因突变如何激活附近致癌基因[27] AlphaGenome技术特点 - 长序列高分辨率:能分析100万碱基对的DNA序列,单碱基精度预测,训练时间仅需4小时且计算资源仅为Enformer模型的一半[12] - 多模态预测:可同时预测基因起始/终止位置、RNA水平、DNA可及性等数千种分子特性[9][13] - 高效突变评分:1秒内评估基因突变对所有特性的影响[14] - 新型剪接建模:首次直接从序列明确建模RNA剪接位点,有助于理解遗传疾病机制[15] 行业应用价值 - 疾病研究:更精确确定疾病成因和突变功能影响,发现新治疗靶点,特别适合研究罕见遗传病[23] - 合成生物学:指导设计具有特定调节功能的合成DNA[24] - 基础研究:加速基因组功能元件绘制和关键DNA指令识别[25] - 案例验证:成功预测T细胞白血病中非编码突变通过引入MYB结合基序激活致癌基因TAL1[26][27] 技术局限性 - 难以准确捕捉相隔超过10万碱基对的调控元件影响[32] - 未针对个人基因组预测进行验证,无法全面展现突变导致复杂性状的机制[32] - 目前仅开放非商业用途API接口,预测功能仅限于科研用途[32] 模型架构与性能 - 架构结合卷积层检测短模式、Transformer传递序列位置信息、多层网络转化预测[9] - 训练数据来自ENCODE、GTEx等公共联盟的数百种人类和小鼠细胞数据[9] - 在剪接分类(auPRC)、RNA-seq覆盖(Pearson r 32bp)、DNA可及性等模态评估中相对改进最高达32.6%[29]