主成分分析和因子分析易懂介绍

首先,我们要知道这两个方法都是用于数据降维。在多变量,大样本的情况尤为适用。

那么,接下来我将以我理解的最简单的话来介绍它们,在此说明,若想要严谨,数学证明得大家自己去推。

那么什么叫做主成分分析?

主成分分析,又叫PCA.

是把多个原始变量进行线性组合来形成新的变量。

那么有人就会问,为什么要形成新的变量?不是有吗?

对,确实是有,但是变量太多,分析太复杂太困难了。

比如说,大学学生成绩,一共有90门科目,那么一个学生的成绩水平如何去衡量?当然是加权成绩啦!那么加权成绩就是这90个科目成绩变量的线性组合形成的新变量。

主成分就可以表示为:

y_i = \sum_{1}^na_{i}x_{i}

a 表示权重,x表示原始变量

接下来,将以图的形式来直观的说明一下:

以下为身高和体重的12份数据x1,x2

y1 ,y2为主成分1 ,2

可以看到,在y1方向上数据的信息更加充分表达数据之间的差异,y1 y2就是x1 与x2的线性组合。我们可以只用y1就可以代表原信息的80%以上,那么就可以抛弃y2,就实现的降维处理。

2-3个变量我们还可以通过图像看到主成分分析的几何解释,当变量超出我们可以感知的维度时我们就只能用数学去‘感觉'了。

那么主成分的系数如何计算呢?

要是在这里写出数学公式岂不是太扫兴了?

主成分就是找出数据在哪个方向变化最大,在统计中衡量一组数据变化的统计量是什么?没错,就是方差

由于要求各主成分不相关(就是要消除变量之间的相关性,要是提出来的主成分相关,还提它干什么?)

所以各主成分必须正交呗!什么叫正交?emmm,看上面,二维三维就是垂直。

二维上最多两个方向互相垂直,三维最多三个方向互相垂直,以此类推,n维(n个原始变量)最多n个方向垂直呗。所以,我们最多能计算出多少个主成分?对,也是n个。

能计算出n个,不代表就要n个,毕竟我们的目的是降维嘛!况且,除了前面的主成分,后面的主成分解释比例基本上不足1%,要他干嘛?

这样我们就把几十个变量变成几个变量,损失信息也不超过20%。

至于系数,当然是通过原始变量的相关系数矩阵的特征值和特征向量来计算的(具体计算就不写了,需要可以联系我,程序就只是一丢丢)。

程序实现(R)

1、数据为某市13个行业8项重要经济指标,其中x1为年末固定资产净值;x2为职工人数数据;x3为工业总产值;x4为全员劳动生产率;x5为百元固定资产原值实现值;x6为资金利税率;x7为标准燃料消耗率;x8为能源利用效率。

数据

cor(data)

eigen(cor(data))

可以得到相关系数矩阵和特征值,特征向量

PCA = princomp(x,cor=T) ;summary(PCA)

所以,我们只需要选择前三个主成分就ok了,八维降到三维

PCA$loadings

可以看参数


看看各主成分所占比例。就选三个吧

你还可以计算各个样本在各个主成分下的得分。


你还可以给它排名

接下来的分析就得仁者见仁,智者见智了,看各位自己的数据了。



什么叫做因子分析

因子分析,和主成分一样,也是一种降维技术,那么有人会问,二者有什么区别呢?且容我慢慢说,说完之后你们就完全不知道二者有什么区别了。

因子分析是假设我们数据中的变量里有一些共同的东西,专业术语叫做共同因子,还有一些特殊自己独有的东西,叫做特殊因子。

举个栗子,

现在,收集到你的身高,体重,睡眠时间,高数成绩,有没女朋友,这些变量,因子分析认为:

呀!你看你这么胖,成绩还不错,还有个女朋友,这里面肯定有些共同的因子在作用着。说不定是学习水平,

但是学习水平是测不出来的隐性因子,哎,没办法,只能通过这些原始变量来推出来的。

x_1 = a_1F_1+a_2F_2+a_3F_3...

x代表变量,F代表因子,a代表参数。

有没有点眼熟,这不就是反过来的主成分分析嘛!

那么因子分析的系数如何求得?

让你们失望了,还是没有公式推导,当然,你们可以选择找我,我给你们发过来。

因子分析和主成分分析不同,主成分的参数是计算出的。

它的参数是估计的,有2种方式。

1、主成分法  线代 通过矩阵的普分解

2、极大似然法  统计

好了,假设参数你们算完了。各因子之间也是不相关的,比如你提出来了一个学习水平因子,你还能提出来一个知识水平因子吗?

既然是降维,那么肯定也涉及到选择因子的问题,因子和主成分一样,也可以提出more and more 因子,所以我们也只选择可以解释大部分信息的前几个因子,并且分析各因子的具体意义。(——这个是最难的,毕竟,前面说的东西,几行代码就全解决了。)

举个例子

程序实现

最大似然法计算因子分析            FAQ = factanal(x,4,rotation = "none")


可以看到最大似然估计的效果并不好

主成分因子法计算因子分析     Fac = factpc(x,4)  ;   Fac



主成分法好得多

到这里,还远远没有结束,因子分析还有旋转因子,因子分析图,以及最重要的结果分析,但是,

我统统都不介绍,对于简单的想了解,我认为这就够了。



高山仰止,景行行止,虽不能至,然欣然向往之!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 197,737评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,103评论 2 375
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 144,710评论 0 326
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,909评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,794评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,557评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,939评论 3 388
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,572评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,852评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,871评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,692评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,490评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,939评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,114评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,409评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,971评论 2 343
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,176评论 2 339

推荐阅读更多精彩内容