数量生态学笔记||冗余分析(RDA)概述

冗余分析(redundancy analysis,RDA)是一种回归分析结合主成分分析的排序方法,也是多响应变量(multiresponse)回归分析的拓展。从概念上讲,RDA是响应变量矩阵与解释变量之间多元多重线性回归的拟合值矩阵的PCA分析。

下面是RDA的计算过程,Y矩阵是中心化的响应变量矩阵,X矩阵是中心化(或标准化)的解释变量矩阵:

  1. 先进行Y矩阵中每个响应变量与所有解释变量矩阵之间的多元回归,获得每个响应变量的拟合值\hat{y}向量和残差y_{res}向量(如果有必要)。将所有拟合值\hat{y}向量组装成拟合值矩阵\hat{Y}

  2. 将拟合值矩阵\hat{Y}进行PCA分析。PCA将产生一个典范排序特征根向量和典范特征根向量矩阵U

  3. 使用矩阵U计算两套样方排序得分(坐标):一套用中心化的原始数据矩阵Y获得在原始变量Y空间内的样方排序坐标(即计算 YU,所获得的坐标在vegan包里称为样方得分(物种得分的加权和));另一套使用拟合值矩阵\hat{Y}获得在解释变量X空间内的样方排序坐标(即计算\hat{Y}U,所获得的坐标在vegan包内称为样方约束(约束变量的线性组合))。

  4. 将第一步多元回归获得的残差(即Y_{res}=Y- \hat{Y})矩阵输入PCA分析残差非约束排序。残差矩阵Y_{res}的PCA分析严格来说不属于RDA的内容,尽管vegan包内同样是用rda()函数运行PCA。

RDA排序轴实际上是解释变量的线性组合。

冗余分析(RDA)是一种提取和汇总一组响应变量中的变化的方法,可以通过一组解释变量来解释。 更准确地说,RDA是一种直接梯度分析技术(direct gradient analysis technique),它总结了一组解释变量“冗余”(即“解释”)的响应变量分量之间的线性关系。 为此,RDA通过允许在多个解释变量上回归多个响应变量来扩展多元线性回归(multiple linear regression,MLR)(图1)。 然后,通过MLR生成的所有响应变量的拟合值矩阵进行主成分分析(PCA)。

RDA也可以被认为是主成分分析(PCA)的约束版本,其中规范轴 - 由响应变量的线性组合构建 - 也必须是解释变量的线性组合(即由MLR拟合)。 RDA方法在由响应变量矩阵定义的空间中生成一个排序,在由解释变量矩阵定义的空间中生成另一个排序。 产生非规范轴的MLR步骤产生的残差也可以是纵向的。 Legendre和Legendre(1998)提供了详细的讨论。

图1:冗余分析对多个解释变量(x1 ... xn)的多个响应变量(y1 ... yn)进行回归。 这是通过依次对每个响应变量执行MLR来实现的。 只有响应变量的拟合值才能用于描述数据集的变化。

RDA分析之前
  • 如果您的响应变量在尺寸上不是同质的(即,如果它们具有不同的基本测量单位),您可以将它们置于其平均值上,或者使用例如z-scoring将它们标准化。但是,不建议标准化原始计数数据。

  • 确保解释变量的数量小于数据矩阵中的对象数量(站点,样本,观察等)。如果不是你的系统超定( If not your system is overdetermined.)。

  • 如果您的解释变量在尺寸上不是同质的(例如,具有不同的物理单位),则将它们置于其手段上并将其标准化。标准化允许直接比较回归系数,否则可能具有不同的尺度。此外,勒让德和勒让德(Legendre)(1998)指出,RDA可用于将定性解释变量与线性响应数据联系起来。定性变量被重新编码为虚拟变量并运行RDA。拟合的站点分数提供定性解释变量的定量重新缩放

  • 检查解释和响应矩阵中每个变量的分布以及每个变量与其自身和任何其他矩阵中的其他变量的关系图。如果关系明显是非线性的,则应用变换来线性化关系并减少异常值的影响。
  • 如果您希望在RDA协调中表示对象之间的非欧几里德关系(例如Hellinger距离),则应在分析之前应用本页讨论的生态动机转换。
结果和解释

RDA产生一个排序,总结了响应矩阵中的主要变化模式,这可以通过解释变量矩阵来解释。选择适当的缩放并解释此排序将在下一节中讨论。

分为约束和无约束方差的数据集的总方差是标准结果。此结果显示响应变量的变化多少与解释变量的变化有关。如果约束方差远高于无约束方差,则分析表明响应数据的大部分变化可能由您的解释变量解释。但是,如果存在很大比例的无约束变异(即响应矩阵的变化与解释矩阵的变化无冗余),则应谨慎解释结果,因为只有少量的变化显示您的响应矩阵。

有关许多约束轴(RDA轴)和无约束轴(PCA轴)的信息通常出现在RDA的结果中。

  • 每个RDA轴都有一个与之相关的特征值。 由于解的总方差等于所有特征值的总和(约束无约束),每个轴解释的方差比例只是给定特征值与解的总方差的商。
  • 偶尔,残差之间的排序和/或相关性可能比具有良好特征的因素更具生态学意义。 通过排序和相关来检查RDA解决方案的非规范(无约束)向量,可以深入了解这些残差的行为。 或者,可以在对响应变量集合执行MLR之后对残差矩阵执行PCA。 RDA的一些实现在RDA轴旁边呈现PCA轴。 PCA轴总结了无约束(残差)方差。

“scores”集也是RDA输出的典型特征,并将根据使用的缩放而变化(有关详细信息,请参阅下一节):

  • 对象和响应变量分数通常分别报告为“站点(site)”和“物种(species)”分数。 这些分数是用于纵坐标和矢量的坐标。 变量的坐标应理解为其矢量的“尖端”,其原点为“尾部”。 向量的方向是该变量的增加方向。
  • 当所讨论的解释变量是定量的时,解释变量分数(也称为约束变量分数)可以被解释为响应变量分数。 每个名义或因子变量状态的分数是这些状态的质心的坐标,并显示具有该状态的站点的平均位置。

可以通过置换检验来确定a)整体RDA解和b)各个RDA轴的显着性值。 这些显着性值应与ANOVA或其他综合测试的处理方法类似地进行处理:只有当整体解决方案显着时,才应检查单个轴或解释变量的重要性。 置换响应或解释矩阵中的行标签将生成空分布(null distribution)。 排列的数量决定了可能的最小有效值。

阅读RDA 双序图和三序图

RDA排序可以表示为双标图或三标图(图2)。 这些图的解释取决于选择的缩放比例。 通常,如果对象之间的距离具有特定值,或者大多数解释变量是二进制或标称变量,则考虑I类标尺(type I scaling)。 如果变量之间的相关关系更感兴趣,请考虑类型II标尺( type II scaling )。 下面讨论进一步的解释。 Legendre和Legendre(1998)以及ter Braak(1994)提供了更多细节。

图2:a)RDA双序图和b)RDA标绘图的三序图。 a)RDA双序图将对象作为点,将响应或解释变量作为向量(红色箭头)。 标称变量(Levels of nominal variables)的级别绘制为点(红色)。 b)在三序图中,对象被指定为点(蓝色),而响应和解释变量(红色和绿色箭头)都被绘制为矢量。 标称变量的级别绘制为点(绿色)。 请注意,默认可视化因实现而异。 在文本中讨论了依赖于标尺的图解释。

1型标尺--距离图(以样方为中心)
  • 物点之间的距离接近欧几里德距离。 因此,可以预期更靠近在一起的对象具有相似的变量值。 这并不总是成立,因为RDA只能恢复数据集中的部分变化。
  • 对象点的直角投影到表示响应变量的向量上,近似于给定对象的变量值。
  • 表示响应变量的向量之间的角度是无意义的。
  • 表示响应变量的矢量和表示解释变量的矢量之间的角度反映了它们的(线性)相关性。
  • 注意,二进制解释变量可以表示为点。 这些点是对象的质心,对于给定的二进制变量,它具有状态“1”。 将质心点投影到表示响应变量的向量上反映了这些变量之间的关系。
  • 质心之间以及质心和物点之间的距离近似于欧几里德距离。
2型标尺---相关图(响应变量)
  • 不应将对象点之间的距离视为接近欧几里德距离。
  • 对象点的直角投影到表示响应变量的向量上,近似于给定对象的变量值。
  • 所有向量之间的角度反映它们的(线性)相关性。 相关性等于矢量之间角度的余弦(例如,描述90°角度的矢量对与cos(90)= 0不相关),描述20°角度的矢量对与cos具有强正相关性(20 )= 0.94)
  • 注意,二进制或名义解释变量可以表示为点。 这些点是对象的质心,对于给定的二进制变量具有状态“1”或者实现名义解释变量的特定级别。 将质心点投影到表示响应变量的向量上反映了这些变量之间的关系。

图3:示意图突出显示a)纵坐标对象在矢量上的投影和b)矢量之间的角度。将纵坐标点投影到变量矢量上,如图a中的点i所示,近似于为该对象实现的变量值。因此,视觉检查表明,对象i可以预期相对于大多数其他对象具有更高的变量1值。然而,对象ii可以预期相对于其他对象具有较低的变量1值。注意,虚线通常不在双标图中示出,并且为了清楚起见在此处示出。当使用II型缩放时,矢量之间的角度余弦(面板b)近似于它们所代表的变量之间的相关性。在这种情况下,∠a接近90,这表明变量“1”和“2”显示非常小的相关性(即它们几乎正交,就像独立的轴一样)。 ∠b小于90°,​​表明变量“2”和“3”之间存在正相关,而∠c接近180°,表明变量“2”和“4”之间存在强烈的负相关(即变量增加的方向“ 2“和”4“彼此对立)。变量5是非定量的并且由质心表示。对变量4的直角投影表明两者是正相关的。

注意
  • 请记住,并未显示原始响应矩阵中的所有方差。因此,应仔细解释对象之间的距离以及对象与变量之间以及变量之间的关系。如果您只对所分析的变量感兴趣,那么多元线性回归等方法可能更合适。如果存在大比例的无约束变化(即响应矩阵的变化与解释矩阵的变化无冗余),则尤其如此,那么结果应该谨慎解释为仅有少量的变化在您的响应矩阵中显示。
  • 如果解释变量的数量等于或大于数据集中的对象数,则不会对分析进行约束。也就是说,响应变量矩阵将由解释变量矩阵完全“解释”。
  • 如果您的响应数据采用距离或(dis)相似度矩阵的形式,请考虑基于距离的RDA。
  • 如果您的实验设计包含嵌套或类似的结构特征,请确保相应地限制排列。忽略此项将使报告的任何显着性值无效。
  • 如果您希望在RDA之前删除一组解释变量(例如实验块)的影响,请考虑偏RDA(consider partial RDA)。
  • RDA的不同实现可以报告不同形式的特征值。确定“差异解释”时,确保对这些值的解释是适当的。

rda

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,723评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,485评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,998评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,323评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,355评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,079评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,389评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,019评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,519评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,971评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,100评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,738评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,293评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,289评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,517评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,547评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,834评论 2 345

推荐阅读更多精彩内容