CIC(未观测混杂因素下的因果推断)
搜索文档
TPAMI 2026 | 仅用两个变量破解混杂因素:CIC实现动力学因果推断与混杂变量重构
机器之心· 2026-03-17 18:03
研究背景与核心问题 - 从观测时间序列数据中准确识别因果关系是生命科学、地球科学、经济学及人工智能等领域的核心科学问题 [2] - 复杂生物系统中,基因、蛋白质和代谢物之间高度耦合,常受大量不可观测的“隐形混杂”因素干扰,这些因素无法被直接测量,会严重误导因果推断结果,产生虚假的因果关联 [2] - 关键挑战在于如何在存在未观测混杂因素的情况下,仅依赖部分观测数据重构真实的因果调控网络 [2] 研究成果发布 - 2026年1月28日,上海交通大学陈洛南团队与西北工业大学张绍武团队等合作,在国际期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)上在线发表研究成果 [2] - 研究提出了一种全新的动力学因果判别框架——未观测混杂因素下的因果推断(CIC) [2] 技术挑战与问题定义 - 复杂系统中,有相当一部分变量是不可观测的,却会显著影响变量之间的因果推断,这类因素被称为潜在/未观测的混杂变量 [4] - 传统因果推断面临的挑战包括:1) 大多数真实系统是非线性、复杂且具有时间依赖性的,传统因果假设限制了该领域进展;2) 非线性动力系统中变量间的耦合作用使得区分潜在混杂因素变得困难;3) 如何区分真实因果关系与混杂效应造成的虚假因果,以及如何重建未观测的混杂因素,是重要且有趣的问题 [4] CIC方法核心框架 - 该方法提出了一种基于延迟嵌入空间中正交分解定理的新框架,能够在存在未观测混杂变量的情况下实现因果推断,并进一步对混杂因素进行重构 [10] - 方法第一步是延迟嵌入变换,理论基础源于Takens延迟嵌入定理,将原始时间序列x与y分别映射到延迟嵌入空间,构造嵌入数据X和Y [11] - 方法第二步是延迟嵌入空间中的正交分解,提出了正交分解定理,并设计了基于变分自编码器(VAE)的正交分解计算方法,将嵌入向量分解为刻画共享信息的公共子空间和刻画独立动态信息的私有子空间 [12][13] - 方法第三步是因果推断与混杂因素重构,基于正交分解结果构建因果推断指标,混杂因素可通过公共子空间进行量化与重构 [14] 方法应用与验证 - CIC成功应用于一系列非线性动力学系统和复杂生物学系统,包括基因调控网络、生态网络、恒河猴的神经元网络以及大鼠昼夜节律基因表达网络 [16] - 在具有不同耦合形式的3节点Logistic系统中展示了性能 [16] - 在DREAM4 in silico Network Challenge基因调控网络中展示了因果推断和混杂因素重构结果 [18] - 在大鼠昼夜节律基因表达数据集中展示了基因调控网络重构和未观测混杂因素(基因)的重构结果 [20] 方法总结与优势 - CIC的核心在于提出了变量在延迟嵌入空间的正交分解定理,将原始变量的时序数据转换为延迟嵌入形式,并分解为公共子空间和私有子空间 [23] - 该方法主要适用于非线性动力学系统、变量具有不可分离性(耦合性)、存在未观测的混杂因素的场景 [23] - 即便在存在大量未观测混杂因素的高维复杂系统中,CIC仅需两个观测变量即可实现有效的因果推断,并重构未观测的混杂变量 [24] - 理论上,CIC基于Takens的延迟嵌入提出了嵌入空间的正交分解定理,避免了对因果充分性假设的依赖;计算上,利用深度神经网络完成非线性变量表示与正交分解 [24] - 在应用中,CIC在多种基准系统和真实生物学数据上均表现出优于现有方法的性能 [24] - 该研究为非线性动力学系统的因果推断提供了新的思路,也为生物网络重构、疾病机制解析以及复杂系统建模等领域带来了重要方法学突破 [25]