特征工程

搜索文档
一文读懂深度表格数据表示学习 | 南京大学
量子位· 2025-06-25 08:33
表格数据在AI应用中的重要性 - 表格数据在金融、医疗健康、教育、推荐系统及科学研究领域广泛应用[1] - 表格数据本质上是一种结构化的信息表示方式 在组织与表达复杂数据关系方面具有天然优势[3] 深度神经网络在表格数据建模中的发展 - 深度神经网络(DNN)凭借其强大的表示学习能力 在表格数据建模上展现出潜力[2] - DNN在表格数据相关应用中已取得显著进展 如点击率预测、异常检测、推荐系统与时间序列预测等[6] - 现代深度学习方法在多个方面的改进 推动了DNN在表格数据建模中的复兴 其性能已逐步接近甚至超过传统树模型[6] 表格表示学习方法分类 - 现有方法按泛化能力划分为三大类:专用模型(Specialized)、可迁移模型(Transferable)和通用模型(General)[2] - 专用方法是最早提出、使用最广泛的一类方法 围绕如何从特征层面和样本层面获得高质量表示展开讨论[9] - 可迁移方法基于预训练模型进行学习 能够提升学习效率并降低对算力资源和数据规模的依赖[12] - 通用模型是在可迁移模型基础上的进一步发展 将预训练表格模型的泛化能力扩展到多种异构的下游表格任务中[19] 表格数据建模的核心挑战 - 表格数据通常具有属性类型异质性 包含数值型、类别型或混合型等多种数据类型[4] - 表格数据面临测量噪声、缺失值、异常值、数据不准确以及隐私保护等问题 这些因素加大建模复杂性[4] - 表格数据缺乏空间或序列结构 使得传统深度学习架构难以直接适用[24] - 表格数据对不完整或错误的记录更加敏感 缺失值可能引入显著偏差 严重影响模型预测效果[25] - 许多表格数据集中存在类别分布不均的问题 尤其在分类任务中某些类别样本数量远少于其他类别[27] 表格数据建模的评估方法 - 单任务评估中分类任务常用准确率或错误率 回归任务常用均方误差(MSE)、平均绝对误差(MAE)和均方根误差(RMSE)[33] - 多任务评估早期主要依赖"平均排名"方法 常结合"临界差异比较"一起使用[34] - 近期研究提出更多多样化的评估指标 如算术平均指标、移位几何均值(SGM)误差等[35] - 基准测试应涵盖不同规模的数据集 包括样本量和特征数量较大的数据集以及较小规模的数据集[36] - 带语义的benchmark开始关注结合任务相关的元信息或整合属性名称 如UniTabE、OpenTabs等数据集[38] 模型选择与性能评估 - 模型选择通常在验证集上进行 包含超参数调优和提前停止两部分[41] - 为评估模型的泛化能力 常采用独立的训练/验证/测试集划分 典型比例为64%/16%/20%[42] - 近期研究表明基于固定验证集的超参数调优不够稳定 易导致对验证集过拟合[43] - 对于小规模数据集 已有多种替代评估策略 如重新打乱数据划分可提升泛化性能[43]
整合多源植物转录组数据,山东理工大学等构建PlantLncBoost模型,跨物种lncRNA预测准确率最高达96%
36氪· 2025-06-18 15:44
植物lncRNA研究突破 - 山东理工大学联合多国科研机构构建PlantLncBoost模型,解决植物lncRNA鉴定泛化性难题,在12个不同科属植物数据集的交叉验证中平均预测准确率达91.7%,较现有工具提升18.2% [1][3] - 研究团队整合9种被子植物的24,152条lncRNA序列和等量mRNA序列,通过严格质量控制构建平衡训练集,并开发包含1,662个特征的特征体系,其中3个核心参数实现94.35%准确率 [4][6][15] - PlantLncBoost采用CatBoost算法,在五折交叉验证中准确率达93.92%,超参数优化耗时仅14.45分钟,显著优于XGBoost和LightGBM [10][11] 模型性能与验证 - PlantLncBoost在20种植物测试集中灵敏度98.42%、特异性94.93%、准确率96.63%,AUC达98.35%,全面领先LncFinder-plant等9种主流工具 [19][21] - 在高置信度实验验证集中识别357条lncRNA(检测率99.72%),唯一未识别案例经追溯分析证实为潜在编码RNA误标 [22][23] - 模型关键特征包括ORF覆盖率(拟南芥lncRNA峰值0.2 vs mRNA 0.7)、复数傅里叶平均值和原子傅里叶振幅,三者解释97%分类方差 [15][17] 行业应用与协同创新 - 北京大学团队发现拟南芥非编码RNA HID1同源基因HIL1的转录抑制机制,法国萨克雷大学揭示COOLAIR lncRNA调控低温胁迫响应的动态模式 [24][25] - 先正达集团利用双单倍体技术将玉米自交系创制周期从4年缩短至1年,2023年审定121个品种多项指标行业领先 [26] - 贝纳基因开发全长lncRNA测序技术,突破Nanopore平台检测瓶颈,应用于苹果花色苷积累等农业育种研究 [26]