Workflow
RNA 结构预测
icon
搜索文档
7个数据集验证:scSiameseClu在无监督单细胞聚类任务中达到SOTA性能
36氪· 2025-09-15 15:33
技术框架与核心创新 - 研究团队提出新型孪生聚类框架scSiameseClu,旨在解决单细胞RNA测序数据聚类中的表征坍塌问题,实现更清晰的细胞群体分类[1][4] - 该框架集成三个关键模块:双重增强模块通过添加高斯噪声和边扰动策略分别增强基因表达与细胞图,以提高模型鲁棒性[11];孪生融合模块采用互相关细化和自适应信息融合策略,有效滤除冗余信息并保留判别性特征[12];最优传输聚类模块利用Sinkhorn算法保证聚类分布的平衡性[13] - scSiameseClu是首个能够有效捕捉并细化复杂细胞间信息,同时在基因和细胞特征层面学习判别性表征的聚类工具[4][5] 性能验证与实验结果 - 在覆盖多组织、多物种的7个真实scRNA-seq数据集上评估性能,这些数据集包含3个小鼠样本和4个人类样本,涵盖视网膜、肺、肝、肾、胰腺等多种细胞类型,基因数量从2000到25125不等,稀疏率介于73.02%至93.33%之间[7][8] - 与9种最先进的基准模型对比显示,scSiameseClu在ACC(准确率)、NMI(归一化互信息)和ARI(调整兰德指数)三项指标上均取得明显优势,如在人类肝细胞数据集上生成具有清晰边界、分离良好的簇[14] - 下游任务实验表明,在人类胰腺数据集的细胞类型注释中,模型识别的前50个标记基因与金标准比对相似度超过90%,分类任务中的准确率达到99.51%,精确度99.69%,召回率99.09%,F1值99.36,均优于基线模型[15][17] 行业背景与技术挑战 - 单细胞RNA测序技术能够捕捉单个细胞的全面遗传信息,但其数据存在高噪声、高稀疏性和高维度的特点,使得细胞聚类环节充满挑战[1][2] - 当前最有效的图神经网络方法仍存在图构建不足和表征坍塌问题,导致细胞嵌入结果逐渐趋同,缺乏保留细胞差异性的有效工具[2][4] - 该研究入选IJCAI 2025,标志着计算方法与生命科学深度融合的新兴趋势,同一领域近期还有高精度RNA结构预测框架DRfold2和蛋白质翻译后修饰预测框架DeepMVP等相关成果发布[4][20][21]