生物信息学
搜索文档
单细胞空间组学Nature论文,1:1代码全文复现
生物世界· 2026-01-07 12:09
文章核心观点 - 空间转录组学是生命科学领域的关键前沿技术,其价值在于将分子表达、组织结构与细胞命运整合到同一坐标系中进行理解,当前的核心挑战已从获取数据转变为将数据转化为可解释的机制和可发表的图表 [1] - 未来的行业竞争焦点在于构建可解释的空间坐标系、建立“位置-互作-信号-表型”的证据链,以及生成高质量的科研成果图表 [1] - 本课程旨在成为科研加速器,通过系统教学帮助学员将空间数据分析能力沉淀为可复用、可扩展、可发表的能力与作品 [1] 课程特色 - 提供全流程系统教学,涵盖从数据结构、质量控制、注释到出图的完整流程,并配套R/Python代码模板 [6] - 提供一对一指导,针对学员自己的数据提供迁移指导,确保学完能直接上手课题 [6] - 结合AI赋能与Nature正文拆解,不仅讲解代码运行,更深入理解代码背后的生物学意义,并将论文图表拆解到输入、参数、输出和验收标准级别 [7] - 进行源码级系统学习,目标是让学员从“能跑代码”到“能修改代码”,理解作者代码仓库结构和逻辑,并能迁移到自己的项目 [7] - 采用直播授课、录屏回看与长期答疑相结合的模式,配备完整资料包,并提供课程结束后的一对一指导答疑 [7] 课程时间与结构 - 第一期课程时间为2026年1月10日至2026年2月,为期一个月 [8] - 课程安排在每周五、周六、周日晚19:00-22:00,共包含十三节课,其中九节为课程精讲,四节为答疑和总结 [8] 课程核心模块内容 - **模块一:AI+Nature文章思路解读**:教授如何利用Deepseek高效阅读与评价Nature多组学生信文章,拆解其叙事框架,并利用ChatGPT将论文范式迁移到自身课题 [9] - **模块二:空间转录组数据全流程处理**:涵盖数据读入、质量控制、基础可视化、过滤归一化、降维聚类、构建空间邻接图、空间统计(如邻域富集、共现、空间自相关)以及基于深度学习的细胞分割 [10][12][14] - **模块三:Nature论文图表复现**:课程核心是逐一复现目标Nature论文的Fig.1至Fig.5,具体包括: - Fig.1:复现展示小鼠小肠中CD8 T细胞空间定位与转录状态动态变化的图表 [5] - Fig.2:复现展示空间生态位驱动作用的图表,包括UMAP与空间图对比、基因空间相关性分析、表达卷积热图及代表性基因核密度图 [16][18][20][22] - Fig.3:复现空间互作网络、细胞因子梯度及CellChat机制整合的图表,包括细胞连接组、相互作用网络、邻域分析热图及信号通路强度热图 [24][25][26][28] - Fig.4:复现CRISPR扰动验证解析CXCR3决定绒毛分布机制的图表,包括基因表达气泡图、趋势曲线、空间定位验证及扰动效果量化 [30][32][33] - Fig.5:复现使用人类回肠数据进行跨物种验证的图表,包括细胞类型分离关系、多尺度组织展示、特征基因集变化、空间梯度表达程序及细胞互作信号分析 [34][35][37][39] 课程费用与支持 - 课程费用为3880元/人,包含直播授课、录屏回看、一对一指导答疑以及完整的讲义、代码、数据资料包 [41] - 提供团体报名优惠 [41] - 配备七名全职答疑助理,提供从早上八点到晚上十二点、全年无休的一对一答疑服务,以保障学习效率 [41] 主讲老师背景 - 主讲老师张振华为中山大学博士,目前于东京大学从事医学人工智能研究,在单细胞多组学、空间转录组与机器学习领域有6年深耕经验 [45] - 已培养学员超过3万人,指导学员发表CNS主刊文章15篇、一区及子刊90余篇,并参与多项国家级科研项目申报,个人发表SCI论文24篇 [45] 课程预期收获 - 学员将能够完成Nature论文正文中每一个图表的1:1精确复现,对齐坐标范围、统计口径、颜色映射等细节,达到“复现到一模一样”的水平 [45] - 学员将真正掌握空间转录组顶刊研究的核心方法体系,包括构建可计算坐标系、生成加权空间密度图、进行空间信号推断、构建空间互作网络以及设计空间扰动验证思路 [46] - 课程旨在解决科研人员常见痛点,即图表制作缺乏论文质感、结果难以串联成机制链条,帮助学员将自己的空间数据转化为可解释、可发表的高质量研究成果 [46]
Nature子刊:原致远/赵屹/冯建峰合作提出3D数字器官重构新算法
生物世界· 2026-01-01 17:00
研究背景与行业痛点 - 当前主流的空间转录组学技术大多局限于二维平面观测,难以还原器官内部基因表达的连续梯度、细胞微环境的立体分布以及精细的细胞互作网络[2] - 通过堆叠2D切片来近似三维结构的方法,因高昂成本和有限通量,不得不对Z轴采样密度做出妥协,导致切片间存在不可忽视的物理间距(例如100微米,相当于缺失约5-10层细胞的信息),最终数据在Z轴上呈现高度稀疏的采样状态[2] 核心研究成果 - 复旦大学与中国科学院计算技术研究所团队于2025年12月31日在《Nature Methods》发表研究,发展了一种名为SpatialZ的全新计算框架[3] - 该框架基于细胞微环境连续性假设,融合最优传输理论,能在稀疏的真实切片间生成虚拟切片,实现从离散2D切片到密集3D图谱的重构[3] - 利用该框架,研究团队基于公开数据集构建了包含超过3800万个细胞基因表达和三维坐标的数字鼠脑,这是首个具有单细胞分辨率的空间三维大脑参考系[3] SpatialZ技术框架与原理 - 框架受到单细胞测序中“伪时间”概念启发,提出生物组织在3D空间上应遵循细胞微环境连续性原则[5] - 其四步级联算法包括:1)空间对齐;2)通过切片Wasserstein重心优化在Z轴间隙中预测细胞物理坐标分布;3)基于空间梯度的加权采样策略推断细胞状态;4)利用多尺度细胞上下文解码器建模细胞微环境,加权合成基因表达谱[5] 模型验证与性能 - 利用具有原生三维信息的小鼠视觉皮层STARmap数据测试显示,SpatialZ精准还原了稀疏采样中缺失的中间层信息,其生成的虚拟切片在基因表达与空间分布模式上与真实切片高度一致[6] - 在结构更复杂、采样更稀疏的小鼠下丘脑视前区MERFISH数据集上测试表明,重构后的图谱精准还原了特定脑区标记基因在Z轴上的连续梯度变化,并显著优化了下游分析任务效果[7] 应用成果与功能 - 研究团队利用129张稀疏小鼠大脑切片,构建了国际首个单细胞分辨率的3D虚拟鼠脑器官,包含超过3800万个细胞的高维组学信息和3D空间坐标[8] - 依托该数字器官,SpatialZ提供了数字切片模块,允许研究者从任意角度解析基因表达梯度,并实现了3D空间搜索功能,能将不同实验室产出的脑组织切片精准定位至全脑参考图谱的特定解剖坐标[8] 技术泛化能力与前景 - SpatialZ的底层逻辑具有强大泛化能力,可轻松扩展至空间蛋白组学、空间代谢组学乃至空间多组学数据[9] - 将该方法应用于人类乳腺癌组织的成像质谱流式数据,成功解析三维肿瘤微环境,并通过伪三维合成切片纠正了真实实验中的表达异常,证明了其作为一种模态无关的通用计算工具的潜力[9] - 该工作为构建跨模态、跨器官、跨物种的综合性三维空间图谱创造了新的可能,并有望在发育生物学、神经科学、肿瘤学等领域催生新发现[10]
7个数据集验证:scSiameseClu在无监督单细胞聚类任务中达到SOTA性能
36氪· 2025-09-15 15:33
技术框架与核心创新 - 研究团队提出新型孪生聚类框架scSiameseClu,旨在解决单细胞RNA测序数据聚类中的表征坍塌问题,实现更清晰的细胞群体分类[1][4] - 该框架集成三个关键模块:双重增强模块通过添加高斯噪声和边扰动策略分别增强基因表达与细胞图,以提高模型鲁棒性[11];孪生融合模块采用互相关细化和自适应信息融合策略,有效滤除冗余信息并保留判别性特征[12];最优传输聚类模块利用Sinkhorn算法保证聚类分布的平衡性[13] - scSiameseClu是首个能够有效捕捉并细化复杂细胞间信息,同时在基因和细胞特征层面学习判别性表征的聚类工具[4][5] 性能验证与实验结果 - 在覆盖多组织、多物种的7个真实scRNA-seq数据集上评估性能,这些数据集包含3个小鼠样本和4个人类样本,涵盖视网膜、肺、肝、肾、胰腺等多种细胞类型,基因数量从2000到25125不等,稀疏率介于73.02%至93.33%之间[7][8] - 与9种最先进的基准模型对比显示,scSiameseClu在ACC(准确率)、NMI(归一化互信息)和ARI(调整兰德指数)三项指标上均取得明显优势,如在人类肝细胞数据集上生成具有清晰边界、分离良好的簇[14] - 下游任务实验表明,在人类胰腺数据集的细胞类型注释中,模型识别的前50个标记基因与金标准比对相似度超过90%,分类任务中的准确率达到99.51%,精确度99.69%,召回率99.09%,F1值99.36,均优于基线模型[15][17] 行业背景与技术挑战 - 单细胞RNA测序技术能够捕捉单个细胞的全面遗传信息,但其数据存在高噪声、高稀疏性和高维度的特点,使得细胞聚类环节充满挑战[1][2] - 当前最有效的图神经网络方法仍存在图构建不足和表征坍塌问题,导致细胞嵌入结果逐渐趋同,缺乏保留细胞差异性的有效工具[2][4] - 该研究入选IJCAI 2025,标志着计算方法与生命科学深度融合的新兴趋势,同一领域近期还有高精度RNA结构预测框架DRfold2和蛋白质翻译后修饰预测框架DeepMVP等相关成果发布[4][20][21]
【2025数博会】AI看数博会黑科技②
搜狐财经· 2025-08-14 13:38
人工智能助手技术 - 小米公司开发的人工智能助手小爱同学集成于智能设备 提供语音交互 信息查询 智能家居控制 生活助手 娱乐功能 语言翻译和智能搜索等服务 通过持续学习优化用户体验[4] 电子商务技术 - 京东推出3D商品展示技术 通过三维模型实现商品旋转和放大操作 结合AR功能在现实环境中预览产品 提升在线购物体验和购买决策准确性[8] 显示技术 - 柔性显示屏采用柔性基材和OLED技术 应用于可折叠手机 平板电脑 可卷曲电视 智能手表 健康监测设备 智能服装 电子皮肤 汽车仪表盘和医疗设备等领域 提供出色图像质量和色彩表现[13] 网络安全技术 - 360公司推出新一代智慧防火墙 集成人工智能和深度学习算法 检测恶意软件和钓鱼攻击 分析用户行为预警内部威胁 提供可视化安全管理界面 适用于企业网络安全和个人信息保护[17] 前沿计算技术 - 超级微粒计算机利用分子或纳米级计算单元执行任务 具有强大计算能力 应用于微型设备 传感器 生物计算 环境监测和医疗健康监测等领域 实现高效能源利用和空间节省[21] 生物信息技术 - 大数据基因预测技术通过分析基因组数据 结合算法和统计模型预测遗传特征 疾病风险和药物反应 整合基因组学 生物统计学和机器学习 提供个性化精准医疗和健康预防策略[27]
蛋白质结构预测/功能注释/交互识别/按需设计,中国海洋大学张树刚团队直击蛋白质智能计算核心任务
36氪· 2025-07-01 15:53
蛋白智能计算体系概述 - 蛋白质是生命活动的主要承担者,在人体生理功能中扮演关键角色,但传统研究面临结构解析成本高昂、功能注释滞后、设计效率低下等挑战 [1][3] - AI技术突破为蛋白质研究带来革新,2024年诺贝尔化学奖授予AI蛋白质结构预测与设计领域,凸显其重要性 [3] - 蛋白智能计算体系通过数据驱动算法实现对蛋白质复杂特性的高效模拟,为药物发现和生命系统模拟提供新路径 [1][3] 蛋白质结构预测突破 - AlphaFold系列模型实现从单体预测到复合物预测的飞跃:初代模型在CASP13中准确预测25种蛋白质结构(第二名仅3种),二代模型发布2.14亿蛋白质单体预测数据库,三代模型扩展至蛋白质-核酸-小分子复合物预测 [4][5] - AlphaFold3预测结构与电镜解析结果的平均误差不超过一个原子宽度,覆盖PDB数据库几乎所有分子类型 [5] 蛋白质功能注释技术 - 全球2.5亿条蛋白序列中仅0.5%完成精准功能注释,团队利用AlphaFold2预测的虚拟结构数据扩充训练样本至数亿级,突破电镜数据稀缺瓶颈 [6] - 提出自监督图注意力方法,通过编码残基关联信息使功能预测性能超越传统方法,在7个数据集上达到SOTA结果 [7][9][10] 蛋白质交互识别应用 - 自研模型解决AlphaFold3商业使用限制问题,引入孪生学习与协同机制,实现蛋白-核酸-小分子交互预测,胰腺癌信号通路预测准确率超95% [16] - 开发几何深度学习方法解决三维信息丢失问题,筛选出nM级别亲和力候选化合物,湿实验初步验证预测结果 [17][20] 蛋白质设计创新 - 蛋白质设计作为折叠逆问题面临搜索空间爆炸挑战,AI技术已实现全新蛋白质设计案例,如中和蛇毒毒素的特异性结合蛋白 [22] 生命系统跨尺度计算 - 构建"表征-状态-尺度"三维计算体系,涵盖基因-蛋白质-信号通路-细胞四级尺度,实现从原子到细胞的全链条模拟 [23] 团队技术成果 - 发表论文30余篇,Google Scholar引用超1,600次,研究成果发表于IEEE JBHI、JCIM、npj Systems Biology等权威期刊 [25]
八旬院士“神预言”DeepSeek诞生!“真没料到会成预言家”
环球网资讯· 2025-05-06 17:33
基因组学研究 - 陈润生是中国非编码基因研究的拓荒者,参与全球最大生命科学工程"人类基因组计划"[1] - 1990年通过联系美国人类基因组计划办公室,获得首个5年计划文本,推动中国基因组学研究[2] - 1992年协助吴旻院士推动中国人类基因组计划立项,承担测序片段拼接和功能基因寻找任务[4] - 1999年中国完成人类三号染色体短臂3000万碱基对测序(占全球计划1%),提前2年高质量交付[6] - 发现人类基因组中97%非编码序列与疾病相关,推翻"垃圾DNA"传统认知[6] 生物信息学突破 - 团队建立全球首个非编码分子信息库,收录64万个数据并向世界开源[7] - 1980年代末已运用人工神经网络预测遗传密码,奠定AI在生物信息学应用基础[7] - 目前探索中医数据与医学AI大模型融合,构建跨医学体系的智能分析平台[8] 人工智能发展观点 - 提出"智算密度"概念,反对单纯堆积算力的发展路径[1] - 主张将AI定位为"创新中心"而非工具,激发涌现性创新[8] - 认为DeepSeek等大模型的突破验证了底层创新的重要性[1][7]