一.聚类分析
- 聚类的目的
1.间隔尺度:变量用连续的量来表示【常用】
2.有序尺度:有次序关系,指标有有序的等级来表示
3.名义尺度:指标用一些类来表示,这些没有等级和数量的关系
1.1聚类分析的类型
- Q型聚类:对样品的聚类
- R型聚类:对变量的聚类
1.2聚类分析按研究方法分类
1.系统聚类法:由N类--1类
2.分解法:由1类---N类
3.K-均值法:事先在聚类过程中确定在K类,适用于数据量大的数据
4.有序样品的聚类:N个样品排序,次序相邻的样品聚成一类
5.模糊聚类法:模糊数学的方法,多用于定性变量
6.加入法:样品依次加入,全部加入完得到聚类图。
1.4相似性度量
1.4.1 样品相似性的度量【Q】
1.4.2 变量相似性的度量【R】
a.夹角余弦
b.相关系数
1.4.3类间距离
a.常用的类间距离定义有8种之多,与之相应的系统聚类法 也有8种,分别为
a.中间距离法
b.最短距离法:类与类之间的距离最近两个样品的距离。
c.最长距离法:类与类之间的距离最远两个样品的距离。【先距离最短,后距离最远合并】
d.类平均法:两类元素中任两个样品距离的平均。
e.重心法:两个重心xp 和xq 的距离。
f.可变类平均法
e.离差平方和法(Ward法): 该方法的基本思想来自于方差分析,如果分类正确,同 类样品的离差平方和应当较小,类与类的离差平方和较大。 具体做法是先将 n 个样品各自成一类,然后每次缩小一类,每 缩小一类,离差平方和就要增大,选择使方差增加最小的两 类合并,直到所有的样品归为一类为止。
1.5最短距离法vs最长聚类法
a. 最短距离法的主要缺点是它有链接聚合的趋势,容易形 成一个比较大的类,大部分样品都被聚在一类中,所以最短 距离法的聚类效果并不好,实际中不提倡使用。
b. 最长距离法克服了最短距离法链接聚合的缺陷,两类合 并以后与其他类的距离是原来两个类中的距离最大者,加大 了合并后的类与其他类的距离。
二.主成分分析
2.1.主成分分析的基本思想
a. 定义:主成分分析(Principal Component Analysis,简记 PCA)是将多个指标化为少数几个综合指标的一种统计分析方法,通常我们把转化成的综合指标称为主成分。
b. 本质:降维
c. 表达:主成分为原始变量的线性组合
d. 即信息量在空间降维以后信息量没有发生改变,所有主成分的方差之和与原始的方差之和
e. 多个变量之间有一定的相关性,利用原始变量 的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用。
f. 累积贡献率一般是85%以上
2.2主成分与原始变量之间有如下基本关系:
(1)每一个主成分都是各原始变量的线性组合
(2)主成分的数目大大少于原始变量的数目
(3)主成分保留了原始变量绝大多数信息
(4)各主成分之间互不相关
- 变量的变异性越大,说明它提供的信息量就越大
- 主成分分析将按照变量方差的大小顺序挑选几个主成分。
三.因子分析
3.1 因子分析的基础理念
a. 基本目的:用少数几个综合因子去描述多个随机变量之间的相关关系。
b. 定义:多个变量————少数综合因子(不存在的因子)
c. 显在变量:原始变量X;潜在变量:因子F
d. X=AF+e【公共因子+特殊因子】
e. 应用:因子分析主要用于相关性很强的多指标数据的降维处理。
f. 通过研究原始变量相关矩阵内部 的依赖关系,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
g. 定义:原始的变量是可观测的显在变量,而综合的因子是不可观测的潜在变量,称为因子。
3.2 因子分析的基本思想
i. 根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。
ii. 公共因子:每组变量代表一个基本结构,并用一个不可观测的综合变量表示。
iii. 对于所研究的某一具体问题,原始变量分解成两部分:
- 一部分是少数几个不可测的所谓公共因子的线性函数。
- 另一部分是与公共因子无关的特殊因子。
3.2.1因子分析的研究关系
i. R 型因子分析——研究变量之间的相关关系
ii. Q 型因子分析——研究样品之间的相关关系
3.3统计意义
3.3.1因子载荷aij的统计意义
a. 因子载荷 是第i个变量与第j个公共因子的相关系数,绝对值越大,相关的密切程度越高。
3.3.2 变量共同度hi的统计意义【横着求和】
a. 变量 Xi 的共同度是因子载荷矩阵的第i行的元素的平方和。记为
b. 所有的公共因子与特殊因子对变量 Xi 的贡献和为1。
3.3.3 公共因子FJ方法贡献gi2的统计意义【竖着求和】
3.4因子分析三个步骤
a. 确定因子载荷
b. 因子旋转
c. 计算因子得分
3.5因子旋转
3.5.1旋转的目的
a. 寻找简单结构的载荷矩阵:载荷矩阵A的所有元素都接 近0或±1,则模型的公共因子就易于解释。
b. 如果各主因子的典型代表变量不突出,就需要进行旋转使因子载荷矩阵中载荷的绝对值向0和1两个方向分化。
3.5.2旋转的方法
a.意义:对公共因子作正交旋转相当于对载荷矩阵 A 作一正交变换 ,右乘正交矩阵 T ,使 A* = AT 能有更鲜明的实际意义。
b.几何意义:是在 m 维空间上对原因子轴作一刚性旋转。 因子旋转不改变公共因子的共同度,这是因为 AA'=ATT'A'=AA'
c. 旋转方法有:正交旋转和斜交旋转
d. 最普遍的是:最大方差旋转法
3.5.3最大方差旋转法:
a. 定义:通过坐标变换使各个因子载荷的方差之和最大。
b. 任何一个变量只在一个因子上有高贡献率,而在 其它因子上的载荷几乎为0;
c. 任何一个因子只在少数变量上有高载荷,而在其 它变量上的载荷几乎为0。
3.5.4因子分析的逻辑图:
因子分析和主成分分析的区别和联系
1.联系
思想相同:降维
前提条件:各变量间必须有相关性,否则各变量之间没有共享信息
2.区别
主成分分析:将主成分表示成原始变量的的线性组合
因子分析:将原始变量表示成公共因子与特殊因子的线性组合,且公共因子不可观测。
主成分分析:主成分个数与变量个数相同(实际中取前面若干几个)
因子分析:公因子个数少于变量个数