相关性分析 Pearson 相关系数 和 Spearman 秩相关系数

分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。本文主要介绍比较常用的 Pearson相关系数、Spearman秩相关系数。这两个相关性系数反应的都是两个变量之间变化趋势的方向以及程度,取值范围为 -1 到 +1, 0 表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。

Person Correlation Coefficient (皮尔森相关系数)

1. 定义:皮尔森相关系数也称皮尔森积矩相关系数,是一种线性相关系数,用来反映两个变量 X 和 Y 的线性相关程度。
p _{X,Y} = \frac{cov(X,Y)}{\sigma_X \sigma_Y}
其中 \sigma_X \sigma_Y 表示变量 X 和 Y 的标准差, cov(X,Y) 表示变量 X 和 Y 的 协方差。
cov(X,Y) = \frac{\sum_{i=1}^{n}(X_i - \tilde{X})(Y_i - \tilde{Y})}{n}
其中 \tilde{X}\tilde{Y}XY 的平均值。
\sigma_X^2 = \frac{\sum_{i=1}^{n}(X_i -\tilde{X})^2}{n}

最后整理可得:
p _{X,Y} = \frac{\sum_{i=1}^{n}(X_i - \tilde{X})(Y_i - \tilde{Y})}{\sqrt{\sum_{i=1}^{n}(X_i -\tilde{X})^2\sum_{i=1}^{n}(Y_i -\tilde{Y})^2}}
2. 数据要求:Pearson相关系数可用于衡量变量之间的线性相关程度,但是对数据也有一定的要求

    1. 两个变量之间是线性关系,都是连续数据。
    1. 数据符合正态分布。
    1. 两个变量之间相互独立。

3. 缺点:皮尔森相关性系数受异常值的影响比较大

Spearman Correlation Coefficient(斯皮尔曼相关系数)

上面我们介绍了 Pearson 相关系数的局限性,为了摆脱这些局限性,我们将介绍 Spearman 相关系数。它比 Pearson 相关系数 的应用范围更广一些。

1.定义: 斯皮尔曼相关系数是秩相关系数的一种。通常也叫斯皮尔曼秩相关系数。“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解

它是一种无参数(与分布无关)的检验方法,用于度量变量之间联系的强弱。在没有重复数据的情况下,如果一个变量是另外一个变量的严格单调函数,则Spearman Correlation Coefficient(斯皮尔曼相关系数)就是+1或-1,称变量完全Spearman秩相关。无论两个变量的数据如何变化,符合什么样的分布,我们只关心每个数值在变量内的排列顺序 如果两个变量的对应值,在各组内的排序顺位是相同或类似的,则具有显著的相关性。
P_s = \frac{\sum_{i=1}^{N}(R_i - \tilde{R})(S_i - \tilde{S})}{\sqrt{\sum_{i=1}^{N}(R_i - \tilde{R})^2\sum_{i=1}^{N}(S_i - \tilde{S})^2}} = 1 - \frac{6\sum d_i^2}{N(N^2-1)}
其中 R_iS_i分别是观测值 i 的取值的等级,\tilde{R}\tilde{S}分别是变量 x 和变量 y 的平均等级,N 是观测值的总数量,d_i = R_i - S_i 表示二列成对变量的等级差数。

2. 数据要求:

    1. 相对于皮尔森相关系数,斯皮尔曼相关系数对于数据错误和极端值的反应不敏感。
    1. 斯皮尔曼等级相关系数对数据条件的要求没有皮尔逊相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究.
    1. 因为一个变量的相同的取值必须有相同的秩次,所以在计算中采用的秩次是排序后所在位置的平均值。只要两个变量具有严格单调的函数关系,那么它们就是完全Spearman相关的,这与Pearson相关不同,Pearson相关只有在变量具有线性关系时才是完全相关的。

Spearman 和 Pearson 相关系数在算法上完全相同. 只是 Pearson 相关系数是用原来的数值计算积差相关系数, 而 Spearman 是用原来数值的秩次计算积差相关系数。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,776评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,527评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,361评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,430评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,511评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,544评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,561评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,315评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,763评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,070评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,235评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,911评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,554评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,173评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,424评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,106评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,103评论 2 352