生物信息学
搜索文档
7个数据集验证:scSiameseClu在无监督单细胞聚类任务中达到SOTA性能
36氪· 2025-09-15 15:33
技术框架与核心创新 - 研究团队提出新型孪生聚类框架scSiameseClu,旨在解决单细胞RNA测序数据聚类中的表征坍塌问题,实现更清晰的细胞群体分类[1][4] - 该框架集成三个关键模块:双重增强模块通过添加高斯噪声和边扰动策略分别增强基因表达与细胞图,以提高模型鲁棒性[11];孪生融合模块采用互相关细化和自适应信息融合策略,有效滤除冗余信息并保留判别性特征[12];最优传输聚类模块利用Sinkhorn算法保证聚类分布的平衡性[13] - scSiameseClu是首个能够有效捕捉并细化复杂细胞间信息,同时在基因和细胞特征层面学习判别性表征的聚类工具[4][5] 性能验证与实验结果 - 在覆盖多组织、多物种的7个真实scRNA-seq数据集上评估性能,这些数据集包含3个小鼠样本和4个人类样本,涵盖视网膜、肺、肝、肾、胰腺等多种细胞类型,基因数量从2000到25125不等,稀疏率介于73.02%至93.33%之间[7][8] - 与9种最先进的基准模型对比显示,scSiameseClu在ACC(准确率)、NMI(归一化互信息)和ARI(调整兰德指数)三项指标上均取得明显优势,如在人类肝细胞数据集上生成具有清晰边界、分离良好的簇[14] - 下游任务实验表明,在人类胰腺数据集的细胞类型注释中,模型识别的前50个标记基因与金标准比对相似度超过90%,分类任务中的准确率达到99.51%,精确度99.69%,召回率99.09%,F1值99.36,均优于基线模型[15][17] 行业背景与技术挑战 - 单细胞RNA测序技术能够捕捉单个细胞的全面遗传信息,但其数据存在高噪声、高稀疏性和高维度的特点,使得细胞聚类环节充满挑战[1][2] - 当前最有效的图神经网络方法仍存在图构建不足和表征坍塌问题,导致细胞嵌入结果逐渐趋同,缺乏保留细胞差异性的有效工具[2][4] - 该研究入选IJCAI 2025,标志着计算方法与生命科学深度融合的新兴趋势,同一领域近期还有高精度RNA结构预测框架DRfold2和蛋白质翻译后修饰预测框架DeepMVP等相关成果发布[4][20][21]
【2025数博会】AI看数博会黑科技②
搜狐财经· 2025-08-14 13:38
人工智能助手技术 - 小米公司开发的人工智能助手小爱同学集成于智能设备 提供语音交互 信息查询 智能家居控制 生活助手 娱乐功能 语言翻译和智能搜索等服务 通过持续学习优化用户体验[4] 电子商务技术 - 京东推出3D商品展示技术 通过三维模型实现商品旋转和放大操作 结合AR功能在现实环境中预览产品 提升在线购物体验和购买决策准确性[8] 显示技术 - 柔性显示屏采用柔性基材和OLED技术 应用于可折叠手机 平板电脑 可卷曲电视 智能手表 健康监测设备 智能服装 电子皮肤 汽车仪表盘和医疗设备等领域 提供出色图像质量和色彩表现[13] 网络安全技术 - 360公司推出新一代智慧防火墙 集成人工智能和深度学习算法 检测恶意软件和钓鱼攻击 分析用户行为预警内部威胁 提供可视化安全管理界面 适用于企业网络安全和个人信息保护[17] 前沿计算技术 - 超级微粒计算机利用分子或纳米级计算单元执行任务 具有强大计算能力 应用于微型设备 传感器 生物计算 环境监测和医疗健康监测等领域 实现高效能源利用和空间节省[21] 生物信息技术 - 大数据基因预测技术通过分析基因组数据 结合算法和统计模型预测遗传特征 疾病风险和药物反应 整合基因组学 生物统计学和机器学习 提供个性化精准医疗和健康预防策略[27]
蛋白质结构预测/功能注释/交互识别/按需设计,中国海洋大学张树刚团队直击蛋白质智能计算核心任务
36氪· 2025-07-01 15:53
蛋白智能计算体系概述 - 蛋白质是生命活动的主要承担者,在人体生理功能中扮演关键角色,但传统研究面临结构解析成本高昂、功能注释滞后、设计效率低下等挑战 [1][3] - AI技术突破为蛋白质研究带来革新,2024年诺贝尔化学奖授予AI蛋白质结构预测与设计领域,凸显其重要性 [3] - 蛋白智能计算体系通过数据驱动算法实现对蛋白质复杂特性的高效模拟,为药物发现和生命系统模拟提供新路径 [1][3] 蛋白质结构预测突破 - AlphaFold系列模型实现从单体预测到复合物预测的飞跃:初代模型在CASP13中准确预测25种蛋白质结构(第二名仅3种),二代模型发布2.14亿蛋白质单体预测数据库,三代模型扩展至蛋白质-核酸-小分子复合物预测 [4][5] - AlphaFold3预测结构与电镜解析结果的平均误差不超过一个原子宽度,覆盖PDB数据库几乎所有分子类型 [5] 蛋白质功能注释技术 - 全球2.5亿条蛋白序列中仅0.5%完成精准功能注释,团队利用AlphaFold2预测的虚拟结构数据扩充训练样本至数亿级,突破电镜数据稀缺瓶颈 [6] - 提出自监督图注意力方法,通过编码残基关联信息使功能预测性能超越传统方法,在7个数据集上达到SOTA结果 [7][9][10] 蛋白质交互识别应用 - 自研模型解决AlphaFold3商业使用限制问题,引入孪生学习与协同机制,实现蛋白-核酸-小分子交互预测,胰腺癌信号通路预测准确率超95% [16] - 开发几何深度学习方法解决三维信息丢失问题,筛选出nM级别亲和力候选化合物,湿实验初步验证预测结果 [17][20] 蛋白质设计创新 - 蛋白质设计作为折叠逆问题面临搜索空间爆炸挑战,AI技术已实现全新蛋白质设计案例,如中和蛇毒毒素的特异性结合蛋白 [22] 生命系统跨尺度计算 - 构建"表征-状态-尺度"三维计算体系,涵盖基因-蛋白质-信号通路-细胞四级尺度,实现从原子到细胞的全链条模拟 [23] 团队技术成果 - 发表论文30余篇,Google Scholar引用超1,600次,研究成果发表于IEEE JBHI、JCIM、npj Systems Biology等权威期刊 [25]
八旬院士“神预言”DeepSeek诞生!“真没料到会成预言家”
环球网资讯· 2025-05-06 17:33
基因组学研究 - 陈润生是中国非编码基因研究的拓荒者,参与全球最大生命科学工程"人类基因组计划"[1] - 1990年通过联系美国人类基因组计划办公室,获得首个5年计划文本,推动中国基因组学研究[2] - 1992年协助吴旻院士推动中国人类基因组计划立项,承担测序片段拼接和功能基因寻找任务[4] - 1999年中国完成人类三号染色体短臂3000万碱基对测序(占全球计划1%),提前2年高质量交付[6] - 发现人类基因组中97%非编码序列与疾病相关,推翻"垃圾DNA"传统认知[6] 生物信息学突破 - 团队建立全球首个非编码分子信息库,收录64万个数据并向世界开源[7] - 1980年代末已运用人工神经网络预测遗传密码,奠定AI在生物信息学应用基础[7] - 目前探索中医数据与医学AI大模型融合,构建跨医学体系的智能分析平台[8] 人工智能发展观点 - 提出"智算密度"概念,反对单纯堆积算力的发展路径[1] - 主张将AI定位为"创新中心"而非工具,激发涌现性创新[8] - 认为DeepSeek等大模型的突破验证了底层创新的重要性[1][7]