基因组学与深度学习 - 多细胞生物中不同细胞类型拥有相同基因组但通过基因表达差异调控实现功能特化 调控序列通过细胞类型特异性方式招募转录因子决定基因表达模式 [2] - 染色质可及性是调控DNA的通用标志 可通过DNase-seq和ATAC-seq测量 但大多数物种仍缺乏全面的细胞类型解析调控序列图谱 [2] - 深度学习模型可直接从DNA序列预测调控和表达信号 郭国骥团队开发的Nvwa模型实现单细胞分辨率基因表达预测 Huatuo模型可解码疾病相关调控序列 [3] - 当前细胞图谱数据在灵敏度或通量方面存在局限 阻碍高精度预测模型生成 [3] 技术突破与研究成果 - 郭国骥团队开发超高通量超灵敏单核ATAC测序技术UUATAC-seq 一天内可完成物种染色质可及性图谱构建 [5][8] - 在五大脊椎动物(小鼠/鸡/守宫/蝾螈/斑马鱼)中绘制候选顺式调控元件(cCRE)图谱 发现基因组大小差异影响cCRE数量但不影响其大小 [9][10] - 开发多任务深度学习模型NvwaCE 实现从基因组序列到单细胞水平调控元件图谱的直接预测 在多项指标上超越现有基因组AI模型 [5][11] 模型性能与应用验证 - NvwaCE证明调控"语法"保守性强于核苷酸序列 并将cCRE组织成不同功能模块 揭示细胞类型特异性基因表达的序列基础 [6][11] - 模型精准预测合成突变对谱系特异性cCRE功能的影响 与QTL和基因编辑结果一致 [13] - 首次预测出镰状细胞病治愈性突变位点(HBG1-68:A>G) 基因编辑验证显示胎儿血红蛋白表达量显著提升 证明AI模型预测功能性位点的性能 [13][14] 研究意义与行业影响 - UUATAC-seq技术高效构建染色质可及性图谱 NvwaCE模型为破译脊椎动物基因组调控语言提供资源 [15] - 研究成果为全面解读基因组语言和建立数字生命模型奠定基础 [6]
浙江大学最新Cell论文:AI基因组模型——女娲CE,破译脊椎动物基因组调控语言
生物世界·2025-07-09 08:09