「量学堂-8」成也相关系数,败也相关系数

相关系数

相关系数是用于衡量两个变量之间,是否存在线性相关。其值范围介于 [-1, 1] 之间,为正则代表正相关 —— 一个变量随另一个变量的增大而增大;为负则代表负相关 —— 一个变量随另一个变量的增大而减小;系数绝对值越接近于0,表示两个变量之间的线性相关性越弱。

我们假设有两个变量 X 和 Y ,它们各自代表一组观测数据序列(例如,X代表身高、Y代表体重,(Xi, Yi)代表的是一个观测样本 i),那么它们之间的相关性可以用如下公式计算:

公式中的 Cov 是协方差,std 是标准差。

两组随机数序列的相关系数接近于0。

相关性 vs. 协方差

相关性是对协方差进行归一化转换后的形式。所谓归一,就是把数据范围限制在一定范围内,把有量纲表达式变为无量纲表达式。拿协方差矩阵来说,归一化转换后,矩阵中元素的值都被限制在了-1到1范围之间。(相关系数取自于归一化后的协方差,用于体现变量之间的相关程度。从这一点上来说,协方差本身是没有任何意义的。)

除此之外没有其他分别。在日常使用中,这两种指标可互换使用。我们在当谈及它们时,仅仅通过名字的不同将他们区分,但在概念上它们几乎相同。

应用实例:

我们构建 X 和 Y 两组序列,并计算一下它们的协方差。

如前所述,得到变量 X 和 Y 的协方差矩阵之后,我们要做的是将其归一化,使元素值的范围落在-1到1之间,之后进一步计算得到相关性系数,观察变量之间的相关性。具体实现公式如下:

为了加以说明,我们再来看一下例子:

我们来可视化展现一下X和Y的相关性,可以明显看到,两个变量之间呈现相性相关。

从Y和Z的构造中,我们注意到它们与X有很强的的线性关系。让我们来计算以下相关系数进行验证,可以看到,X与Y,Y与Z,X与Z的相关系数都是1。

为何cov和corrcoef函数返回的都是矩阵?

协方差矩阵是统计学中的一个重要概念。人们通常所说两个变量的协方差,实际上只是协方差矩阵中的一个元素。对于一个n*m的样本矩阵(n为变量个数,m为变量包含的样本点个数),得出的协方差矩阵C是n*n的矩阵,协方差矩阵每个元素Cij表示的随机变量Xi, Xj的协方差。矩阵的对角线表示变量本身的方差(即Cov(X,X)或Var(X))。协方差矩阵是基于对角线对称的。

现在让我们来可视化展现一下变量之间(假设为 X 和 Y )正相关的例子:

进一步地,我们通过增大“噪声”的偏离程度,来降低变量间的相关程度:

下面的例子展示了变量之间存在负相关的情形:

相关系数在金融领域中的应用

1、判断证券之间是否相关

当我们确定了两只股票价格存在相关性,便可以利用它来预测未来的股价。举例来说,让我们看一下苹果和半导体设备制造商泛林集团(Lam Research Corporation)的股价。

2、构建一个互不相关的股票投资组合

这个也是相关系数在金融领域的又一应用,其实并不难理解。如果股票之间互不相关,单只股票的下跌不会影响到其他的股票。这意味着,由诸多不相关的股票组成的投资组合,能够拥有相对稳定的收益。

相关性的局限

1、显著性

当变量不服从正态分布时,很难严格界定相关性是否显著(还起作用)。拿上例来说,苹果和泛林集团的相关系数接近1时,可以认为在选取的时间范围内,它们的股价是相关的,但并不能保证未来是否依然满足相关性。

同时,如果我们将这两只股票分别于标普500指数进行相关分析,也将得到很强的相关性。因此我们能够得出结论是:和平均股价(指标普500)的相关性比较,苹果和泛林集团的相关性略高。

根本问题在于,选择正确的时间段能够很容易地进行相关性数据采集。为了避免这种情况,一种方法是计算这两只股票以往多个历史时期的相关性,同时检测相关系数的分布情况。后续章节会进一步详细说明。 上例中我们看到了这两只股票在 2014-1-1 到 2015-1-1这个时间段内的相关系数是0.98。让我们看一下这两只股票“滚动60天期”的相关性,看看它们是如何变化的。

2、非线性关系

相关系数能够用来检测两个变量间的相关程度。然而需要注意的是,变量之间可能以一种非线性、且可预知的方式互相关联影响。这时,相关系数就会显得束手无策。例如,一个变量可能紧随第二个变量的变化而变化,但有一定的延时。又或者是,一个变量可能与另一个变量的变化率相关。这些关系虽然不是线性的,但是如果能够被检测到,还是非常有用的。

另外,相关系数对异常值也是非常敏感的。换句话说,样本集中是否剔除含异常值的样本点,将会导致结果大相径庭。同时也很难界定这些异常样本点本身是有意义的,又或者是纯粹的噪声。

我们来看一个例子,通过使噪声服从泊松分布而非正态分布,我们来看一下会发生什么?

本章总结:相关性是一种强大的分析技术,但是在统计学中,应该时刻警惕小心它的局限性,不要去解释那些无中生有的结果。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,383评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,522评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,852评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,621评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,741评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,929评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,076评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,803评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,265评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,582评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,716评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,395评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,039评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,027评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,488评论 2 361
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,612评论 2 350

推荐阅读更多精彩内容