数量生态学笔记||非约束排序||PCA

看到本笔记系列的名字么?:R在数量生态学中的应用--矩阵·度量·聚类·排序·空间。其实到排序这一部分已经算是接近尾声了,因为空间分析哪一部分我打算放弃,目前的生态数据规模很少有空间数据。接下来,搬好小板凳,咱们好好讲讲排序。

如果说聚类分析的目的在于寻找数据的间断性,那么排序(ordination)的目的就在于寻找数据的连续性(通过连续的排序轴展示数据的主要趋势)。

要讲排序就要知道我们是在哪里排序,这里就引出多维空间的概念。假设我有10个样本的物种丰度表:

行为样本,列为物种(也可以理解为特征)。我们要对这10个样本进行排序:

  • 假如只有一个物种: 那么根据这一个物种在每个样本中的值就可以排序啦。
  • 假如有两个物种("CHA", "TRU"):我们可以建立二维坐标轴,横坐标是"CHA",纵坐标为TRU,根据这两个物种的值,我们也可以画出点来。
  • 假如有三个物种:那么就是三维坐标来画点,也是可以画的。

那么大于三个物种的时候呢?那就是n维空间中的点了,是无法画出来的。
所以我们要找到一种方法,将n维空间中的点,在二维平面内展现出来。
由于这么多的点无法共面,所以要找到一个平面,使空间中的所有点都能投影在这个平面上,而且投影的点之间的距离,越能反应真实距离越好。这个投影过程就是排序运算过程。好的排序方法是投影过程信息损失最少。

排序的主要目的之一是生成可视化的排序图,这就决定了排序过程实际上是讲多维空间的数据尽可能的数据点排列在可视化的低维空间,也就是使最前面的几个排序轴尽可能包含数据结构变化的主要趋势。本章讲的非约束排序只是描述性方法,不存在检验评估排序结果是否显著性的问题,下一章约束排序则需要对排序结果进行显著性检验。

降维空间内的排序

大部分排序方法(NMDS除外)都是基于关联矩阵特征向量的提取。这也产生一个问题:多少个排序轴值得保留和解读?

PCA

如果一个数据矩阵中每个变量都是正态分布,这样的矩阵可以称作多元正态分布矩阵。PCA排序分析的对象是离差矩阵(dispersion matrix),即包含方差和协方差的变量之间的关联矩阵,或不同纲量的变量之间的相关系数矩阵。可见,如果变量之间不相关,PCA的分析也就没有意义了。PCA致力于分析定量数据,展示对象的欧氏距离,线性关系。

使用rda()函数对Doubs环境数据进行PCA分析
# 导入本章所需的程序包 
library(ade4)
library(vegan)
library(gclus)  
library(ape)
rm(list = ls())
setwd("D:\\Users\\Administrator\\Desktop\\RStudio\\数量生态学\\DATA")
# 导入CSV文件数据 
spe <- read.csv("DoubsSpe.csv", row.names=1)
env <- read.csv("DoubsEnv.csv", row.names=1)
spa <- read.csv("DoubsSpa.csv", row.names=1)
# 删除没有数据的样方8
spe <- spe[-8,]
env <- env[-8,]
spa <- spa[-8,]
# 显示环境变量数据集的内容
summary(env)    # 描述性统计
# 全部环境变量数据的PCA分析(基于相关矩阵:参数scale=TURE)
# ********************************************************
env.pca <- rda(env, scale=TRUE) # 参数scale=TRUE 表示对变量进行标准化
env.pca

Call: rda(X = env, scale = TRUE)

              Inertia Rank
Total              11     
Unconstrained      11   11
Inertia is correlations 

Eigenvalues for unconstrained axes:
  PC1   PC2   PC3   PC4   PC5   PC6   PC7   PC8   PC9  PC10  PC11 
6.098 2.167 1.038 0.704 0.352 0.319 0.165 0.112 0.023 0.017 0.006 

summary(env.pca) # 默认scaling=2
summary(env.pca, scaling=1)

注意函数summary()内的参数scaling,为绘制排序图所选择的标尺类型,与函数rda()内数据标准化的参数scale无关。

Call:
rda(X = env, scale = TRUE) 

Partitioning of correlations:
              Inertia Proportion
Total              11          1
Unconstrained      11          1

Eigenvalues, and their contribution to the correlations 

Importance of components:
                         PC1    PC2     PC3     PC4     PC5     PC6     PC7     PC8      PC9     PC10      PC11
Eigenvalue            6.0980 2.1671 1.03760 0.70351 0.35185 0.31913 0.16455 0.11171 0.023109 0.017361 0.0060618
Proportion Explained  0.5544 0.1970 0.09433 0.06396 0.03199 0.02901 0.01496 0.01016 0.002101 0.001578 0.0005511
Cumulative Proportion 0.5544 0.7514 0.84570 0.90966 0.94164 0.97066 0.98561 0.99577 0.997871 0.999449 1.0000000

Scaling 1 for species and site scores
* Sites are scaled proportional to eigenvalues
* Species are unscaled: weighted dispersion equal on all dimensions
* General scaling constant of scores:  4.189264 


Species scores

         PC1     PC2      PC3     PC4     PC5     PC6
das  1.45634  1.1597 -0.83818 -0.6394  1.1820 -0.5578
alt -1.40158 -1.3396  0.58576  0.4854  0.7004  0.8234
pen -0.77254 -1.1499 -1.80693 -3.1715  0.1565  1.1780
(......)


Site scores (weighted sums of species scores)

        PC1      PC2       PC3      PC4      PC5      PC6
1  -1.05160 -0.65504 -0.536188 -0.74739  0.04135  0.08372
2  -0.77560 -0.36292  0.104662  0.13751  0.16547 -0.30155
3  -0.70642 -0.21672  0.417881 -0.05503  0.18807 -0.11896
4  -0.65572 -0.13076  0.064532  0.16799 -0.04275 -0.01082
5  -0.31707 -0.29517  0.238423  0.19922  0.11293  0.20052
(······)

PCA 结果术语:

  • Inertia (惯量):变量自相关系数的总和,也等于变量的个数。

  • Constrained Unconstrained (约束非约束):PCA是非约束排序

  • Eigenvalue (特征根):每个排序轴重要性(方差)的指标,可以用特征根数值,也可以用占总变差的比例表示(每轴特征根除以总惯量)

  • Scaling(标尺):排序结果投影到排序空间的可视化方式。

    • Scaling1(1型标尺)=(distance biplot,距离双序图):特征向量被标准化为单位长度,关注的是对象之间的关系。双序图中对象之间的距离近似于欧氏距离,代表变量的箭头之间的夹角没有意义。
    • Scaling2 (2型标尺)=(correlation,biplot 相关双序图):特征向量被标准化为特征根的平方根,关注的是变量之间的关系。双序图中对象之间的距离不再近似于欧氏距离,代表变量的箭头之间的夹角反映变量之间的相关性。
  • Species scores:变量箭头在排序图中的坐标

  • Site scores : 对象在排序图中的坐标。

提取、解读和绘制vegan程序输出的PCA结果

PCA不是统计检验,而是一种探索分析方法,其目的是在低维空间尽可能多滴展示数据的主要趋势特征。选择多少个排序轴并没有统一的标准。不过也有两种判别方法:

  • Kaiser-Guttman准则
  • 断棍模型(broken stick model)
# 查看和绘制PCA输出的部分结果 
# ****************************
?cca.object  # 解释vegan包输出的排序结果对象结构和如何提取部分结果
# 特征根
(ev <- env.pca$CA$eig)
        PC1         PC2         PC3         PC4         PC5         PC6         PC7         PC8         PC9        PC10        PC11 
6.097995220 2.167125814 1.037602930 0.703508127 0.351852003 0.319125849 0.164550682 0.111707052 0.023109109 0.017361390 0.006061823 
# 应用Kaiser-Guttman准则选取排序轴 
 PC1      PC2      PC3 
6.097995 2.167126 1.037603 

# 断棍模型
n <- length(ev)
bsm <- data.frame(j=seq(1:n), p=0)
bsm$p[1] <- 1/n
for (i in 2:n) {
    bsm$p[i] = bsm$p[i-1] + (1/(n + 1 - i))
}
bsm$p <- 100*bsm$p/n
bsm
    j          p
1   1  0.8264463
2   2  1.7355372
3   3  2.7456382
4   4  3.8820018
5   5  5.1807031
6   6  6.6958547
7   7  8.5140365
8   8 10.7867637
9   9 13.8170668
10 10 18.3625213
11 11 27.4534304
# 绘制每轴的特征根和方差百分比 
par(mfrow=c(2,1))
barplot(ev, main="特征根", col="bisque", las=2)
abline(h=mean(ev), col="red")   # 特征根平均值
legend("topright", "平均特征根", lwd=1, col=2, bty="n")
barplot(t(cbind(100*ev/sum(ev),bsm$p[n:1])), beside=TRUE, 
    main="% 变差", col=c("bisque",2), las=2)
legend("topright", c("% 特征根", "断棍模型"), 
    pch=15, col=c("bisque",2), bty="n")
    #两种方法是否保留相同的轴数?
样方和变量的双序图
 两种PCA双序图:1型标尺和2型标尺 
#********************************
# 使用biplot()函数绘制排序图 
par(mfrow=c(1,2))
biplot(env.pca, scaling=1, main="PCA-1型标尺")
biplot(env.pca, main="PCA-2型标尺")  # 默认 scaling = 2
# 使用cleanplot.pca()函数绘图
source("cleanplot.pca.R")
cleanplot.pca(env.pca, point=TRUE) 
# point=TRUE表示样方用点表示,变量用箭头表示
cleanplot.pca(env.pca)              
# 默认样方仅用序号标识(同vegan包的标准)

cleanplot.pca(env.pca, ahead=0)    
# ahead=0表示变量用无箭头的线表示
#左图中圆圈代表什么意义?看下面解释内容
  • 1型标尺双序图中的平衡贡献圆:
    其半径代表变量的向量长度对排序的平均贡献率。因此在任何二维排序图中,如果某个变量的箭头长度长于圆的半径,代表他对这个排序空间的贡献大于所有变量的平均长度。
组合聚类结果和排序结果
  • 在排序图内用不同颜色去区分不同样方组
  • 将聚类树添加到排序图上
# 组合聚类分析结果和排序结果
# ***************************
# 使用环境变量数据对样方进行基于变量标准化后欧氏距离的Ward聚类分析
env.w <- hclust(dist(scale(env)), "ward")
# 裁剪聚类树,只保留4个聚类簇
gr <- cutree(env.w, k=4)
grl <- levels(factor(gr))
# 提取样方坐标,1型标尺
sit.sc1 <- scores(env.pca, display="wa", scaling=1)
# 按照聚类分析的结果对样方进行标识和标色(1型标尺)
p <- plot(env.pca, display="wa", scaling=1, type="n", 
    main="PCA(基于相关矩阵)+聚类簇")
abline(v=0, lty="dotted")
abline(h=0, lty="dotted")
for (i in 1:length(grl)) {
    points(sit.sc1[gr==i,], pch=(14+i), cex=2, col=i+1)
    }
text(sit.sc1, row.names(env), cex=.7, pos=3)
# 在排序图内添加聚类树
ordicluster(p, env.w, col="dark grey")
legend(locator(1), paste("组",c(1:length(grl))), pch=14+c(1:length(grl)), 
  col=1+c(1:length(grl)), pt.cex=2)
  
转化后的物种数据PCA分析

PCA是一种展示样方之间的欧氏距离的线性方法,理论上并不适用于物种多度分析。然而我们可以通过对数据进行转化来做PCA。

# 鱼类多度数据的PCA分析
# **********************
# 物种数据Hellinger转化
spe.h <- decostand(spe, "hellinger")
spe.h.pca <- rda(spe.h)
spe.h.pca
Call: rda(X = spe.h)

              Inertia Rank
Total          0.5025     
Unconstrained  0.5025   27
Inertia is variance 

Eigenvalues for unconstrained axes:
    PC1     PC2     PC3     PC4     PC5     PC6     PC7     PC8 
0.25796 0.06424 0.04632 0.03850 0.02197 0.01675 0.01472 0.01156 
(Showed only 8 of all 27 unconstrained eigenvalues)
#绘制每轴的特征根和方差百分比
ev <- spe.h.pca$CA$eig
evplot(ev)
# PCA双序图
cleanplot.pca(spe.h.pca, ahead=0)
#这里物种不像环境变量那样能够明显分组。但也能看出物种沿着梯度更替
#分布。在1型标尺的双序图内,可以观察到有8个物种对于第一、二轴有很大
#贡献。可以比较一下,这些物种与4.10.3节聚类分析中聚类簇的指示种是否
#重合?
使用PCA函数进行PCA分析
# 使用PCA()和biplot.PCA()两个函数进行环境数据的PCA分析
# **********************************************************
source("PCA.R")  #导入PCA.R脚本,此脚本必须在当前工作目录下或给路径
# PCA,这里默认是1型标尺双序图
env.PCA.PL1 <- PCA(env, stand=TRUE)
biplot.PCA(env.PCA.PL1)
abline(h=0, lty=3)
abline(v=0, lty=3)
# PCA,生成2型标尺双序图
env.PCA.PL2 <- PCA(env, stand=TRUE)
biplot.PCA(env.PCA.PL2 ,scaling=2)
abline(h=0, lty=3)
abline(v=0, lty=3)
#这里主成分轴正负方向是随机的,可能与vegan包输出的排序图成镜像关
#系。但没有关系,因为对象或变量之间的相对位置没有变化。

参考:
相应分析的R包ca和mca,cca,RDA的R实现整理
使用Vegan包进行生态学数据排序分析的学习(一)
原来你是这样的排序分析

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352

推荐阅读更多精彩内容