数据分析工作,并不是直接从分析开始的,当拿到一份要分析的数据,往往需要先进行一项基础工作-数据处理。数据处理一般的操作方法,正如SPSSAU【数据处理】板块中所提供的这些处理方法。
并且上图的【生成变量】方法中包涵了多种对数据变量重新处理的方法:
其中数据的标准化处理,是在进行很多数据分析之前都需要做的:
在一些分析比如主成分分析、因子分析、线性回归分析等均希望数据标准化处理。
同时一些综合性评价方法还会要求更多的数据处理,比如中心化等,中心化是指:X-平均值。
还有一些经管类的方法:比如中介作用、调节作用等均要求标准化。
如果不进行标准化处理,后面的分析结果可能会存在误差。
数据的标准化处理主要是为了消除指标之间的量纲和取值范围差异的影响。什么是消除指标的量纲?一般情况下,我们所收集的数据是有单位的,比如收集到一份个人信息,其中包括人的身高和体重两个指标,身高有单位cm,体重有单位kg,消除指标的量纲就是消除它们的单位,当不同指标的量级差别很大时,消除量纲是有必要的,否则,数据的分析结果可能由量级较大的指标值决定,而忽略了量级小的指标,所以消除量纲,使之全部变成没有单位的数据,便于之后的分析。
例如下面的案例,需要对我国各省市的综合发展情况做因子分析,表中有六个指标。
像这样的数据,有的指标值特别大,有的指标值特别小,比如“高校数量”和“人均GDP”这两个指标,那么在进行因子分析之前,就需要先对这六个指标变量进行数据标准化。
数据标准化的处理中,使用最广泛的一种标准化方法是z-score标准化,这篇文章分享z-score标准化的原理和做法,以及怎么进行因子分析。
一、数据的Z-score标准化
(1)Z-score标准化原理
z-score标准化是基于原始数据的均值μ和标准差σ进行的,通过下面的转换公式,就可以将原始值转换为统一的均值为0,标准差为1的数据。
z-score标准化转换公式:
新得到的标准化数据的意义是“给定数据距离均值相对来说有多少个标准差”,在均值之上的数据会得到一个正的标准化分数,在均值之下的则得到一个负的标准化分数。标准化之后数据就会全部统一起来,不会有数据非常大比如10000,而有的数据非常小比如10。如下图:
适用:z-score标准化的方法适用于一个变量的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
(2)使用SPSSAU对数据进行标准化处理
实际的分析操作中,数据标准化处理很简单,这里以上面的案例数据来演示如何做。
1、首先打开SPSSAU网站,上传好数据如下图:
2、对6个衡量各省市的综合发展情况的指标值进行标准化处理,在SPSSAU页面右侧选择【数据处理】版块中的【生成变量】按钮。
3、接着选择Z标准化方法,选中需要标准化的6个指标,点击【确认处理】即可。
4、处理结果
SPSSAU系统自动生成新的标准化后的指标变量,原始指标值仍然存在。
此时也可以查看具体的标准化后的数值,可以看到所有的数据都被压缩到了特定区间内:
这样就完成了数据标准化处理,接下来可以用标准化后的数据做因子分析了。
二、因子分析
SPSSAU中提供现成的因子分析方法,可以快速完成,操作如下:
(1)操作步骤
在SPSSAU页面左侧选择【进阶方法】中的【因子】按钮,将标准化后的6个指标变量拖拽到页面右侧的分析框中,根据研究实际情况选择因子数量,这里选择3个,点击【开始分析】即可得出因子分析结果。
(2)输出结果
SPSSAU共输出4个结果表格,自动生成2个可视化图形,分别如下:
1、KMO和Bartlett的检验:
因子分析探索定量数据可以浓缩为几个方面(因子),每个方面(因子)和题项对应关系;
第一:分析KMO值;如果此值高于0.8,则说明非常适合进行因子分析;如果此值介于0.7~0.8之间,则说明比较适合进行因子分析;如果此值介于0.6~0.7,则说明可以进行因子分析;如果此值小于0.6,说明不适合进行因子分析;
第二:如果Bartlett检验对应p值小于0.05也说明适合进行因子分析;
第三:如果仅两个分析项,则KMO无论如何均为0.5。
2、方差解释率表格
3、旋转后因子载荷系数表格
4、成份得分系数矩阵
5、碎石图
6、载荷图
7、线性组合系数及权重结果
三、总结
总之,在做因子分析之前,一般需要先进行数据标准化处理,消除数据指标的量纲影响,数据标准化与因子分析在SPSSAU在线SPSS数据分析工具中都被傻瓜化处理,只需要点点拽拽即可完成,更方便统计入门者使用。