Workflow
Platinum Pedigree benchmark
icon
搜索文档
Nature Methods Paper Leverages PacBio Sequencing Technology to Develop the Platinum Pedigree Benchmark, a New Standard for Accurate Characterization of Variation in the Human Genome that Improves Training for AI Models
Globenewswire· 2025-08-04 21:05
核心观点 - PacBio联合多家机构发布迄今最全面的家族基因组变异数据集Platinum Pedigree,涵盖简单和复杂变异类型,并用于优化Google的DeepVariant工具,使错误率降低34% [1][5] - 该数据集通过长读长测序技术覆盖基因组中高重复区域,首次纳入大型家系验证的串联重复和结构变异,扩展基准区域至2.77Gb [3][4] - 研究成果已发表于《Nature Methods》,数据及分析代码开源,为临床和群体基因组学建立新标准 [6][7][8] 技术突破 - 数据集基于28名多代家庭成员(CEPH-1463)的深度测序,追踪遗传变异传递,精准标注37Mb的变异范围,包括单核苷酸变异和大结构变异 [3] - 包含200 million新增碱基,覆盖传统难以测序的区域如片段重复和低复杂度区域 [4] - 优化后的DeepVariant模型在基因组最难测序区域实现高于34%的错误率降幅 [5] 行业影响 - 为AI/ML工具开发提供更全面的基准测试资源,推动全基因组分析方法发展,尤其提升复杂区域(如与健康相关区域)的检测精度 [5][6] - 目前已被科学家用于开发新序列分析工具和验证临床测序流程,未来将支持更完整基因组(如T2T-CHM13)的基准测试 [6] 公司背景 - PacBio专注长读长测序技术,产品覆盖人类生殖系测序、肿瘤学、传染病研究等领域 [10] - 此次合作方包括华盛顿大学、犹他大学及NIH、霍华德休斯医学研究所 [8]