统计学相关系数
三个相关系数(pearson、spearman、kendall)反映的都是两个变量之间变化趋势的方向以及程度,其值范围在-1和+1之间,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。
1. pearson(皮尔森相关系数)
- 公式如下
- pearson相关系数收到异常值的影响比较大。
2. spearman相关系数
- 秩相关系数,秩可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解,这种表征形式就没有了求皮尔森相关性系数时那些限制,公式如下:
- 解释
指的是变量X和变量Y的秩次的差。可以看出,Spearman是根据变量的大小顺序所确定的,所以一个异常值不会对Spearman相关系数的计算造成很大影响。
3. Kendall相关系数
- kendall秩相关系数,针对的是分类变量,通常要求的是有序的分类变量,kendall秩相关系数(R)是指设有n个统计对象,每个对象有两个属性的系数。将所有统计对象按属性1取值排列,不失一般性,设此时属性2取值的排列是乱序的。设P为两个属性值排列大小关系一致的统计对象对数。
公式如下: