梯度提升算法

搜索文档
整合多源植物转录组数据,山东理工大学等构建PlantLncBoost模型,跨物种lncRNA预测准确率最高达96%
36氪· 2025-06-18 15:44
植物lncRNA研究突破 - 山东理工大学联合多国科研机构构建PlantLncBoost模型,解决植物lncRNA鉴定泛化性难题,在12个不同科属植物数据集的交叉验证中平均预测准确率达91.7%,较现有工具提升18.2% [1][3] - 研究团队整合9种被子植物的24,152条lncRNA序列和等量mRNA序列,通过严格质量控制构建平衡训练集,并开发包含1,662个特征的特征体系,其中3个核心参数实现94.35%准确率 [4][6][15] - PlantLncBoost采用CatBoost算法,在五折交叉验证中准确率达93.92%,超参数优化耗时仅14.45分钟,显著优于XGBoost和LightGBM [10][11] 模型性能与验证 - PlantLncBoost在20种植物测试集中灵敏度98.42%、特异性94.93%、准确率96.63%,AUC达98.35%,全面领先LncFinder-plant等9种主流工具 [19][21] - 在高置信度实验验证集中识别357条lncRNA(检测率99.72%),唯一未识别案例经追溯分析证实为潜在编码RNA误标 [22][23] - 模型关键特征包括ORF覆盖率(拟南芥lncRNA峰值0.2 vs mRNA 0.7)、复数傅里叶平均值和原子傅里叶振幅,三者解释97%分类方差 [15][17] 行业应用与协同创新 - 北京大学团队发现拟南芥非编码RNA HID1同源基因HIL1的转录抑制机制,法国萨克雷大学揭示COOLAIR lncRNA调控低温胁迫响应的动态模式 [24][25] - 先正达集团利用双单倍体技术将玉米自交系创制周期从4年缩短至1年,2023年审定121个品种多项指标行业领先 [26] - 贝纳基因开发全长lncRNA测序技术,突破Nanopore平台检测瓶颈,应用于苹果花色苷积累等农业育种研究 [26]