写在前面的碎碎念:
再回到熟悉的校园和熟悉的人说那些好像才发生的事情,前面的时间检索词是去年~~
确实啊,我们之间的故事间隔了半年多没有更新了。不过,农历八月,桂花的香以及路上掉落的香樟籽是那么的熟悉,而那半年多的空白在人来人往的穿行中被压缩。和朋友们的故事也在不断更新着,美好没离开过。
典范排序从开始时直接加入解释变量进行运算,而不是像非约束排序那样被动地加入解释变量。而且典范排序只提取和展示与解释变量有关的数据结构,并可以通过统计检验方法检验解释变量与响应变量之间关系的显著性。
典范分析根据矩阵所扮演的角色不同可以分为:对称分析与非对称分析。
非对称分析有:冗余分析(RDA)、基于距离的冗余分析(db-RDA)、典范对应分析(CCA)、线性判别式分析(LDA)、主反应曲线(PRC)、协对应分析(CoCA)
对称分析有:典范相关分析(CCorA)、协惯量分析(CoIA)和多元因子分析(MFA)。
冗余分析(RDA)
冗余分析是一种回归分析结合主成分分析的响应变量矩阵与解释变量矩阵之间多元多重线性回归的拟合值矩阵的PCA分析。
计算过程:Y矩阵是中心化的响应变量矩阵,X矩阵是中心化的解释变量矩阵。
① 先进行Y矩阵中每个响应变量与所有解释变量的多元回归,获得每个响应变量的拟合值向量和残差向量。将所有拟合值向量组装为拟合值矩阵。
② 进行Y~X典范性的显著性检验。
③ 如果检验显著,即X能解释Y的变化量比随机数据还要多,将拟合值矩阵进行PCA分析。PCA分析将产生一个典范特征根向量和典范特征向量矩阵U。
④ 使用矩阵U计算两套样方排序得分(坐标):一套使用拟合值矩阵获得在解释变量X空间内的样方排序坐标,在vegan包里称“样方约束”,标识为”lc”;另一套用中心化的原始数据矩阵获得在原始变量Y空间内的样方排序坐标,在vegan包里称“样方得分”,标识为”wa”。
⑤ 将第一步多元回归获得的残差矩阵(Y矩阵-拟合值矩阵)进行PCA分析获得残差非约束排序。
由此可以看出RDA的目的,是寻找能最大程度解释响应变量矩阵变差的一系列的解释变量的线性组合,因此RDA是被解释变量约束的排序。排序轴解释或模拟依赖矩阵的变差。
RDA结果解读:
方差分解(Partitioning of variance):总的方差分为约束和非约束部分。约束部分表示响应变量Y矩阵的总方差能被解释变量解释的部分。
特征根及其对方差的贡献(Eigenvalues and their contribution to the variance):累计解释率也代表响应变量总方差能够被解释变量解释的部分。
由于特征根是逐渐减低的,也就意味着第一个非约束轴所承载的方差大于大部分典范轴承载的方差。
三序图包含了三种实体:样方、响应变量和解释变量。图中定量解释变量用箭头表示;响应变量用不带箭头的线表示。
“lc”代表以拟合值计算样方的坐标,”wa”代表以物种甲醛计算样方坐标。前者是解释变量严格的正交线性组合,但能清晰准确表达出由当前解释变量所能解释的内容;后者能最真实地反映当前的响应变量结构。
1型标尺——距离双序图:响应变量与解释变量箭头之间的夹角反映它们之间的相关性,但响应变量之间的夹角没有此含义。
2型标尺——相关双序图:响应变量与解释变量箭头之间的夹角反映它们之间的相关性。响应变量之间和解释变量之间也同样解读。
为了避免首都获取双序图坐标和使用箭头函数,可以使用triplot.rda()函数进行绘图。
由于生态学的数据经常是非正态分布的,所以需要进行置换检验。在RDA中,只有在响应变量标准化后残差正态分布,才可以使用参数检验。
置换检验的原理:通过多次随机调换被检验元素的位置,每次置换都重新计算一次统计值,这样所产生的模型统计值构成获得p值的参照分布;此时,可以计算当前实际数据的统计值处于参照分布的位置,实际统计值的p值便是实际统计值所在位置的累计概率值。拒绝零假设的条件是p值等于或小于预先设定的显著性水平α。
偏RDA分析:偏典范排序相当于多元偏线性回归分析。
例如,以气候变量X作为解释变量,土壤因子变量W作为协变量,对植物物种数据矩阵Y进行RDA分析。下图为基于Hellinger转化的Doubs鱼类多度数据的偏RDA三序图,解释变量为水体化学属性,协变量为地形变量,拟合的样方坐标。
简化模型(减少解释变量的数量)的原因:①寻求简约的模型;②有些解释变量之间可能存在较强的线性相关,即共线性问题,可能会造成回归系数不稳定。
每个变量的共线性程度可以用变量的方差膨胀因子(VIF)度量,如果VIFs超过20,表示共线性很严重。一般而言,VIFs超过10则可能就会有共线性的问题,需要处理。高VIF可能表示变量在功能上与其他变量相关,可以试着删除一些重叠的变量。
多元回归变量筛选通常有3种模式,前向、后向和逐步(前两种的组合)。
前向选择过程:
①依次分别运行每个解释变量与响应变量的RDA分析;
②基于下面设置的便准选择“最好”的显著的解释变量;
③接下来寻找模型中的解释变量,每次都是将剩余的变量单独跟前面解释变量组合重新计算,以确定下一个“最好”的显著的变量。
④知道无显著性的解释变量为止。
终止变量选择的方法:传统的方法是使用与设定显著性水平α作为主要终止原则,即如果加入新变量的偏RDA置换检验显著性p大于或等于α,选择过程即被终止。但是这个标准过于宽松。为了防止夸大Ⅰ类错误,首先运行包含所有解释变量的全模型置换检验,当且仅当置换检验显示显著性后,再执行变量的前向选择。为了减少纳入太多变量的风险,首先计算包含所有解释变量的全模型的Radj2,将其作为第二个终止原则。如果备选变量的偏RDA置换检验不显著或当前模型的Radj2超过全模型的Radj2,前向选择即被终止。(也可以用AIC来进行判断,但是AIC往往比较自由。)
后向剔除变量:在使用时必须提供给函数包含所有解释变量的全模型。
变差分解:量化两组或多组变量单独及共同解释的变差。
如图两组变量通常是非正交的关系,所以两组变量所能解释的变差有重叠的部分。所以,两组变量一起解释的变差小于两组变量单独解释变差的和。能够被X所解释的变差为a+b,能够被W解释的变差为b+c,残差d为尚未被解释的变差。
变差分解的概念步骤:
如果有必要,应该对X和W单独进行变量前向选择,只保留显著的变量。
单独以X作为解释变量进行Y的RDA分析,可以获得a+b部分的值;单独以W作为解释变量进行Y的RDA分析,可以获得b+c部分的值。以X和W一起作为解释变量进行Y的RDA分析,可以获得a+b+c部分的值。计算上面三个RDA分析的Radj2,然后通过减法计算各部分校正后的变差。
变差分解主要目的在于量化各部分变差的量值,最主要的是计算共同解释的变差,但在解读时必须非常谨慎,因为共同部分很难确定与哪组变量有关。
而变差分解与交互作用是不同的,交互作用是有重复的双因素方差分析中一个因子不同水平与其他因子不同水平之间的协同作用。
基于距离的RDA分析:用于分析多元框架内群落组成的数据分析(群落数据常常有很多0值)。
db-RDA的分析步骤:计算响应数据Q-模式相异矩阵;计算相异矩阵的PCoA,必要时使用Lingoes方法校正负的特征根。将所有的主坐标矩阵保存在一个文件内,主坐标矩阵依然可以视为表征数据总方差的距离矩阵。将上一步获得的主坐标矩阵作为响应变量,以可用的环境变量作为解释变量,运行和检验db-RDA。
典范对应分析(CCA)
用vegan包的cca()函数以公式模式形式运行Doubs数据的CCA分析。物种数据必须是未转化的原始的多度数据。
在CCA中,环境变量解释响应变量走变化量比例不是真正的R2,而是惯量比率。
1型标尺,是样方点垂直投影到定量解释变量的箭头或延长线上,投影点位置接近该样方内该解释变量数值的位置。
2型标尺,是将物种的点垂直投影到定量解释百年来的箭头或延长线上,投影点位置表示物种在该环境变量梯度的最适区域。响应变量与解释变量箭头之间的夹角反映它们之间的相关性,响应变量之间及解释变量之间的夹角也代表相关性。
线性判别式分析(LDA)
其响应变量是样方的分组情况。LDA的目的是计算一组独立的定量解释变量能够多大程度解释当前样方分组的结果。(需明确指出样方分组一定是独立于解释变量预先完成的,否则将会变成自证关系,导致统计检验无效。)运行LDA时,必须保证解释变量组内方差矩阵齐性。
主响应曲线(PRC)通过修改RDA过程解决多变量设计实验重复测量结果分析相关的问题。重点关注的是对照和处理之间的差异。与RDA相比,PRC更关注在每个时间点处理和对照之间的不同。而要实现这一点,必须删除时间的整体效应,可以通过将时间因子作为协变量来控制时间整体的效应。
协对应分析(CoCA):基于对应分析(CA)的分析方法,主要对取自相同样方的两类不同类群的群落数据同时进行对应分析去检验两个群落矩阵之间的关系。协对应分析的两个群落矩阵之间没有解释与被解释的关系,属于对称分析方法。对于两个群落数据,一个作为解释变量,另外一个作为响应变量,就很适合进行CoCA。
对称分析
对称分析意味着被分析的两个矩阵之间没有响应变量和解释变量之分,扮演同样的角色。用于分析数据组之间的相关性。
典范相关分析(CCorA):适用于两组变量之间是否相互影响之类的研究。只要每个表格中物种数量小于样本量n-1,即可运行。
协惯量分析(CoIA):是一种允许用不同的方法对每个数据矩阵结构单独进行建模的对称分析方法。
CoIA计算步骤:先计算两个数据表格内变量交叉的协方差矩阵。协方差矩阵的平方和成为总协惯量。计算协方差矩阵的特征根和特征向量,特征根代表总协惯量的分解。将两个原始矩阵的对象和变量投影到协惯量的排序图上。根据排序图上两组数据的投影图判断它们的关系。
箭头越短,表示两个投影之间的一致性越高。相关性高的变量的箭头方向一直,变量箭头越长,表示对排序的贡献越大。
多元因子分析(MFA):分析三组或三组以上的对称分析。同一组内所有变量必须是同一类型的数据。如果所有的变量都是定量变量,那么MFA实际上就是所有变量加权组合在一起的PCA分析。
MFA的计算步骤:每组变量分贝进行PCA分析。对于定性变量的子集,PCA被MCA取代。考虑不同组间方差的不同,需要将每组变量先中心化后,在除以各自PCA分析第一个奇异值,获得k个加权的数据表格。通过cbind()函数将k个加权数据表格组合成新表格,然后进行全模型的PCA分析;然后每组变量投影到全模型排序图上,通过对象和变量的排序图评估数据组共同结构和差异。数据组之间的结构相似性通过RV系数衡量。RV系数在0~1变化,可以用置换方法进行检验。
代码数据笔记:
链接:https://pan.baidu.com/s/1jY5A63jyG2UEA4JThipGHA
提取码:ricy