1、 文献信息
复旦大学林伟教授:新型因果网络辨识算法可以用于疫情防控
近日,复旦大学数学科学学院、类脑智能科学与技术研究院的林伟教授团队,与中国科学院、苏州大学、日本东京大学等团队合作,提出了数据驱动的因果网络辨识的新型算法。该方法可以用于大规模复杂动力系统内蕴因果网络的复现,有助于解析实际系统演化的本质机制和规律。该研究成果不久前以《偏交叉映射排除间接因果影响》为题在线发表于综合类学术期刊《自然-通讯》
Leng S , Ma H F , Kurths J , et al. Partial cross mapping eliminates indirect causal influences[J]. Nature Communications, 2020, 11:2632.
2、文献简介
由于因果传递的影响,因果检测可能会将间接因果误判为直接因果。尽管在传统框架上提出了一些方法来避免这种误判,任然缺少从间接因果中识别出直接因果关系的方法,特别是当变量隐藏在动力系统中且是相互不分离的,相互之间有弱关系这样情况会具有更大挑战。这里,我们给出一种基于数据的与模型无关的偏交叉映射的方法来解决此问题,该方法基于非线性动力学和数据的三种工具的整合:相空间重构,相互交叉映射,和偏相关。我们使用来自不同模型和真实系统的数据验证了我们的方法。因为直接因果是很多复杂动力学基础的关键,我们预计我们的方法在解锁和解密不同学科真实系统的内部机制方面必不可少。
3、研究方法与结果
3.1 研究模型
3.1.1 不可分离变量概念
我们引入了不可分离变量概念,它是通过一个连续的时间动力系统得到:,其中状态变量在紧流形中演化,形成维度为的吸引子。这里可以将计算为的盒维数。初始值为的动力学由得到,其中是流形上的流。根据Takens –Mañé's的嵌入理论以及它的份行概述,可以以概率重构出具有一个正延迟和平滑观测函数的系统, 只要,延迟坐标图通常是一个嵌入图。为了直接说明,我们取观测函数为一个简单的坐标函数,其中为的第i个分量。因此,我们有并且通过嵌入图将流形映射到阴影流形。因为嵌入图是一对一的,因此阴影流形上的动力学和上的动力学在拓扑上是共轭的,也即:
一方面,系统隐含着这样一个事实,即某个特定组件(例如)的未来动力学受以下因素支配:
因此,取决于所有组件的历史值。 另一方面,式中的关系暗示了另一个事实,即只要存在嵌入图,的未来动力学也受下式影响:
因此仅取决于变量的历史和嵌入图。
一般的,仅通过观察一个变量来预测是可能的,且这种预测与使用系统的所有变量信息的预测一样完美。因此,Takens–Mañé的嵌入理论揭示了,在这种非线性的系统中,整个动力系统的信息可以一般的注入到一个变量中,因此可以通过该变量的感测数据进行重构。因此,这引起了不可分离的概念,也即对动力系统进行任何预测时,通常不能从其它变量中删除某些变量的信息。这也表明基于预测框架的方法(如Granger因果,传递熵及其扩展)从数学上不适合处理非线性系统产生的时间序列数据,而非线性系统之间始终存在不可分性。简例见附件。
3.1.2 传递引起间接因果关系
为了说明传递引起间接因果关系,我们考虑一个3物种的启发logistic模型有如下联系:
其中这三个物种在因果链中相互作用,表示为,且耦合强度和是非零的。现在,我们将上述模型的第二个方程移动一个时间步长,然后代入模型的最后一个方程,得到:
同样最后一个方程可变化为:
因此有:
因此这个方程和模型的第一个方程,形成了从X到Y的单向因果关系。但是,这种因果关系是间接的,是由传递性引起的,且这个印象对离散动力学系统具有时间延迟的影响。
3.1.3 一阶和高阶PCM方法
现在我们正式指定PCM框架(见附件图1).第一步是将时间序列以时间步长转换生成m个变量。对于时间序列对和,我们应用MCM方法从获得,并计算其相关系数。为了简化,我们用表示,其中。下一步重复上述过程得到从到的映射,并用表示,其中。现在得到的表示间接信息流。通过直接应用MCM模型到和,我们可以用表示从X到Y的全部信息,这是的简化,其中。我们引入相关性指标,其中是一个描述剔除第三个变量信息的前两个变量联系程度偏相关系数。我们来回顾下偏相关系数的定义,对于时间序列X,Y以及,那么在的条件下X和Y之间的相关系数为:
在和的条件下X和Y的偏相关系数为:
可以递归定义在更多条件下的偏相关系数。为了提供我们方法的详细说明,我们总结了实际步骤:
过程A:MCM检测从到的因果关系。(1)通过使用U和V时间序列的延迟坐标嵌入来重构相空间,可以通过使用FNN算法和DMI方法选择重构参数(嵌入维度,,时滞,;见附件Note5);(2)对于每个时间索引t,找到的邻居节点集合(个最近邻居被使用,因为它是维空间中有界单纯性所需的最小数目);(3)在中找出哪些与具有相同时间索引的相应点,并计算它们的加权平均得到估计值(这里的权重取决于中的节点与间的距离,定义为操作);(4)使用一个合适的指标(如)来表征时间序列的估计(下表0表示这里没有V的变换,下文含义相同)且初始时间序列,它衡量从到的因果。
过程B:PCM方法检测在条件Z下从X到Y的直接因果。(1)选择不同的时间延迟将时间序列Y 转化生成;(2)对于每对到,执行过程A获得,且用表示,其中可使达到最大;(3)改变时间序列的时间延迟得到;(4)对于每对到,执行过程A得到,且用表示,其中时间延迟使达到最大;(5)对于每对到,执行过程A的到,且用表示,其中时间延迟使得达到最大;(6)使用来衡量在条件Z下X到Y的直接因果关系。
需要注意的是上述MCM过程中,我们搜索的是不同候选时间延迟下的强因果关系。为了一致性,在整个研究中,所有MCM结果都基于该策略。此外,可以在时间延迟的分布(即因果谱)上表征变量之间的因果关系。这种完整的因果关系将包含在我们未来的工作中。
正如上述描述,一阶PCM模型可以按下述定义估计超过3个相互作用变量,高阶模型可写为:
在一个复杂的动力学网络中,直接因果也能够通过不止一个变量传递(如)。高阶PCM方法被用于这种特殊情况。特别的,我们通过删除从s个变量()中任意两个变量的交叉映射变量的信息,可以计算和相关系数和它们间的偏相关系数:
该式是区分直接因果的一种有效方法,表示从X到Y通过两个变量传递的间接因果。类似的,可以通过定义来表示中任意n个变量的组合传递因果的情况。
结合,(n=1,...,s)和PCM方法得到,用其反映这些系数的接近程度,我们得到了高阶PCM方法,来检测大型网络的因果联系。然而,对于较大的n阶,n个中间变量的可能组合非常大,我们将在未来的工作中研究高阶方法的计算和应用,本文只考虑 一阶问题。
在实践中,如果网络规模相对较大,则部分相关过程将遇到计算问题,因此应考虑使用较大的条件集。在这种情况下,我们要选择一些节点来最大化,这就意味着很大概率上存在通过的间接因果,且以这些点为条件。此外,如果我们的先验知识表明网络是稀疏的,也即,间接因果是很少的,我们也可以一个个以为条件,取的最小值作为最终结果。
此外,通过将偏相关性替换为表征条件依赖性的其他可能的度量,可以进一步发展或改变PCM思想。例如,确定相关系数(表示为)是一种可能的选择,用作从交叉图邻居通过分配每个影响因素的效应大小直接估计一个指标。另一种启发性的思路是对于间接因果影响,切断或都可以削除整个间接信息流,这也提供了PCM框架的变化。这些进一步的变化将包含在未来工作中。
3.2 研究结果
3.2.1 Partial cross mapping
为了方便描述偏交叉映射的方法,我们考虑三个变量在单向链中因果关系的简单情况。令是长度为L的时间序列。使用Takens-Mañé的delay-cooordinate embedding,我们可以得到三个shadow manifolds:向量表示为:
其中分别是嵌入大小,是时差,。这些嵌入大小和时差参数可以分别通过false nearest neighbor(FNN)和delayed mutual information(DMI)计算得到。一般的,对于任意一对变量和,我们令,其中是一个包含在corresponding shadow manifold中的最邻近节点的固定值(通常取,这是在维空间中有界单纯性所需点的最小值)。对于,。当,变为邻居的交叉映射。从到的独立性表征了从变量产生到变量产生的因果影响。先前用于量化这种独立性和因果影响的启发式方法构成了MCM框架。我们利用和之间的相关系数,其中是的一个映射,是一个对给定集合中所有的点取近似加权平均的操作。特别的,如果相关系数大于一个经验阈值T,这个MCM方法将认为从X到Y存在因果关系。MCM对成对不可分离系统中的因果关系领域做了补充。然而,由于因果关系的传递性,MCM得到的因果连接可以是直接的,也可以是间接的(如图2a所示)。另外,因为因果关系会在一个特定的时间延迟后显示其影响,我们寻找一个最优的时间延迟来极大化X和Y的因果关系(如,相关系数)。
按照上述定义,表示整个空间中和夹角的余弦值,如图2b所示。为了区分因果传递的存在,我们考虑将投影到与因果传递性引起的间接信息正交的信息空间上。为此,我们给出我们的PCM框架。首先,对于一个时间序列和平移量(候选时间延迟为),我们应用传统的MCM方法去决定最优的时间延迟,就是要最大化相关系数。相应的,从得到的映射可用简化表示。接下来重复这个过程,产生时间序列对和translated以获得最优的延迟,同样从得到的映射,这样最大化了相关系数。定义获得的映射为,它是从一个连续的MCM过程获得的,且表征了一个流经Z的间接信息流,然后就得到了,它表征了所有从X到Y的因果信息,通过对时间序列对X和translated 重复上述过程,我们就引入了相关指标:来测量从X到Y的直接因果关系(通过Z的间接因果为条件),其中是一个偏相关系数用来描述删除第三个变量信息后前两个变量相关性的程度,与MCM指标不同。需要注意的是我们搜索的是在每个MCM过程中的不同候选时间延迟中的最强的因果。因此可以被直观的认为是在与直接信息正交的信息空间上的投影(见图2b),因此消除了间接因果的影响。
对于这三个因果变量X,Y和Z,我们有。设定一个经验阈值,这些相关指标有三种大小情况:,,,相应的,这三种因果关系分别为:从X到Y的直接因果,从X到Y的间接因果,从X到Y没有因果关系。指标表征削除间接联系后直接因果联系的程度。对于图2a中的例子,这里X和Y的因果关系属于第二种情况,可以从其相关指标推断得到。在真实的应用中,可能会发生因果信号不够强,导致,趋于T的情况。在这种情况下,直接因果的检测对T的值更加敏感。为了克服这个问题,我们引入来衡量两个指标的接近度。越接近于1,则越是一种直接因果联系。进行了多次测试保证了统计上的可靠性。
这个PCM框架可以拓展到具有任意多交互变量的网络系统中,(例如图1d)。利用和所有相关性,我们可以计算它们的偏相关系数为,通过移除这s个变量的交叉映射变量信息,其中是区分X到Y直接和间接因果连接联系的一阶度量。我们这里强调非线性系统中的强耦合(同步)变量不再PCM框架内,因为在这种环境下,完成的系统将崩溃为一些因果子系统的sub-manifold,并且这种影响变量将称为一个在因果系统上的可观测函数,其中这种双向的因果将会从计算中发现。另外,我们的PCM框架是基于Takens–Mañé理论的,它仅能应用到自治系统。从非自治系统种得到的数据不能直接用到我们的框架种,但我们的方法可以应用到一些非自治系统中。特别的,它可以用交换系统的数据从数值上被用来检测分段因果关系,其中这个转换点可以被定位,且每个连续转换点的持续时间足够长。同样,我们的框架也适用于一些强制系统以及一些噪声较弱或中等的系统,因为一些广义的嵌入定理可以支持我们框架的健全性。对于一种重要的非自治系统,即具有随时间变化的耦合函数或/和各种噪声的动态振荡器,通过贝叶斯动态推理和一组精细的函数库可以提供非常实用的解决方案。对于未来的调查主题,可能的调查包括结合上述互补方法结合起来,用于更一般的动力学系统的因果检测,而无需了解明确的模型方程式,但具有高度复杂的交互结构。
3.2.2 确定基准系统中的直接因果关系
为了能够验证我们的方法,我们使用下述三个相互作用的基本系统:
其中,,,是零均值标准差为0.005的白噪声。不同的耦合参数选择导致了不同的相互作用模型,见图3a。从这个时间序列中,我们可以分别计算出MCM和PCM的指标,和,以检测从X到Y 的直接连边(如图3b和3c)。在某些情况下,两种方法都可以有效的检测直接因果边,但对于阈值T=0.5时的因果链和因果环结构,这个PCM方法可以成功的区分出间接因果关系,然而MCM方法由于不能削除因果传递的影响而不能区分。随着T的变化,PCM方法表现的比MCM方法更加鲁棒,使得PCM方法可以在没有足够的T先验信息的情况下更好的应用到真实系统中。这个结果在图3b和c中也通过多测实验矫正得到了验证。此外,对于其它所有可能的三种相互作用结构,包括代表性的网络结构:fan-in,fan-out,和cascading structures,我们的系统研究表明,PCM方法可以完全准确的实现因果检测。更重要的是,我们的系统还对Granger因果关系,传递熵及其所有条件的拓展进行比较,以检测这三个系统的因果关系以及测试不同噪声水平和时间序列长度的鲁棒性。正如补充材料Note3所示,这个PCM方法表现超出了现有方法,这些方法原则上只适用于变量分离的条件。在补充材料Note3中,我们还给出了PCM框架和动态贝叶斯推断的方法。两种方法都有它们各自的有点且可以互补的适用。所有这些结果系统的证明了我们的方法相较于经典方法的普遍性和特殊性,这里动力系统的变量是不可分离的。
另外,我们在八个相互作用网络中验证了PCM的有效性。见附件的图10,通过选择合适的T组,网路的直接因果边可被重构出来,而成功的削除所有的间接连边。相反,对于相同的T值,MCM方法会产生一个包含直接,间接甚至错误的因果网络。我们可以发现即使阈值参数T的值较小,也可以通过适用比值来提升检测准确性(附件Note4)。此外,选择一个实际有效的阈值更容易实现PCM方法的鲁棒性(附件图11和Note5)。在此模型中,及时数据量较小噪声较强,PCM对时间序列长度和噪声标度的鲁棒性测试具有良好的效果(附件Note3)。这些结果证明了我们PCM方法在检测直接因果以及准确的重建因果网络方面具有强大的功能。
3.2.3 在真实网路中检测因果关系
我们在基因表达控制网络中测试了我们的结果。有5个不同合成结构的网络。每个网络具有100个基因。我们使用GeneNetWeaver软件随机选择了20个基因,其中每个基因都有21个基因表达时间序列数据的10个实现。图4a呈现了一种基因规则网络(其它见附件图12)。对于每个基因,我们将所有实现作为一个时间序列来进行相空间重构。我们将PCM检测到的直接因果联系与五个网络的先验已知边缘进行比较,并计算出各自的ROC(接收器工作特性)曲线(图4b)。我们发现ROC曲线下五个区域的平均值接近〜0.75,这表明了在基因规则网络中(甚至数据集很小)具有很高的检测准确性。第二个例子考虑食物链网络,微型蓝藻,轮虫和类胡萝卜素,其关系如图4cd。第三个例子考虑香港空气污染和心血管疾病的住院记录的关系,如图4ef。
4、主要结论
我们的方法主要有两点优势:基于PCM可以检测间接因果;基于Takens–Mañé的嵌入理论处理变量不可分问题。现有方法要么将间接因果关系链接错误识别为直接因果关系,要么由于违反可分离性条件而失败,因此,我们在理论和计算上开发了一种方法来解决此突出问题,以应对这种情况。 现有框架无法有效地解决这些问题。我们的PCM方法通过应用于许多实际系统中得到了验证,从而对这些系统的动力学产生了新的见解。明确消除直接因果联系并消除间接因果影响是理解和准确建模基础系统的关键,因此我们的框架提供了实现此目标的工具。
5、后续讨论
。。。