Workflow
DNBSEQ平台
icon
搜索文档
谷歌用上中国“神器”,AI+高质量基因测序数据,让基因变异无处隐藏
生物世界· 2026-05-12 12:22
文章核心观点 - 在人工智能变革基因组学的过程中,底层基因测序数据本身的质量是决定最终分析高度的关键基石,其重要性不亚于算法和算力 [2][34] - 华大智造DNBSEQ测序平台提供的高质量数据,能够显著提升以Google DeepVariant为代表的AI变异检测工具的性能,尤其是在最富挑战性的基因组区域 [3][34] - 当顶尖AI工具与高质量的DNBSEQ平台数据结合时,产生了“1+1>2”的卓越效果,为追求最高数据质量和分析精准度的研究者提供了强有力的技术组合选择 [3][34] 不同测序平台数据质量比较 - 在使用泛基因组图进行比对时,华大智造DNBSEQ-T7+测序数据的平均序列一致性为0.995999,优于另一主流平台Illumina NovaSeq的0.993489 [6] - 更干净、错误更少的测序数据为后续AI分析奠定了更高的天花板,DNBSEQ平台提供了更优质的“教材” [10] 基于高质量数据的专属AI模型表现 - 使用高质量的DNBSEQ-T7+数据为DeepVariant训练的专属模型,在HG003样本上产生的假阳性和假阴性错误位点总数为14183个,显著少于基于NovaSeq数据训练的模型的15481个 [12] - 使用最新的HG002样本T2T完整基因组变异真集(包含超过450万个变异位点)进行严苛评估,DNBSEQ-T7+与DeepVariant组合的总错误位点为64116个,显著优于NovaSeq与DRAGEN v4.3组合的71854个,也优于NovaSeq与DeepVariant组合的73213个 [16][19] 在基因组“困难区域”的检测优势 - 在同源聚合物区域,DNBSEQ与DeepVariant组合的Indel检测准确率比NovaSeq与DRAGEN组合提升了约55% [21] - 在复杂结构变异区域(如片段重复和复杂拷贝数变异区),DNBSEQ与DeepVariant组合的错误位点数量比NovaSeq与DRAGEN组合减少了约30% [24] - 优势源于测序化学原理不同(DNA纳米球与联合探针锚定聚合 vs 可逆末端终止),使得DNBSEQ在这些区域的背景错误率天然更低,为AI模型提供了更清晰的信号 [28] DNBSEQ平台不同型号的性能一致性 - 无论是主打高通量的DNBSEQ-T7+,还是主打灵活性的2025年新发布的DNBSEQ-T1+,其数据训练出的模型在变异检测性能上均保持一致的高水平,且都优于对比方案 [29][32] - 这表明该平台在不同型号和通量下都能提供稳定、可靠的高质量数据,满足从大规模种群项目到小型快速研究的不同需求 [32] 基于泛基因组参考的框架与最佳实践 - Google Research团队联合华大智造及中国科学院大学的研究人员,在预印本平台发表了研究,建立了一个基于泛基因组的变异检测稳健框架和最佳实践流程——PanVariants [35][36] - 该框架实现了对新变异的灵敏发现以及对单核苷酸变异、插入缺失和结构变异的高精度检测,DNBSEQ与PanVariants组合实现了对NovaSeq与DRAGEN组合的变异检测性能的超越 [36][38]