数据间可以存着相关性,如果两个变量的相关性很强,可以通过一个变量去预测另一个变量。
样本的相关系数一般用 **r **表示
完全正(负)相关:r = 1(-1)
正(负)相关:0<| r| <1
不相关:r=0
曲线相关:不能进行线性相关分析
对于不同类型的变量,相关系数计算不同。常用的有:
1、pearson 简单相关系数:对定距连续变量的数据进行统计计算
2、spearman 等级相关系数:用于度量定序变量间的线性相关关系
3、Kendall r 相关系数:用非参数检验方法来度量定序变量间的线性相关关系。
计算基于数据的秩。
偏相关
又叫净相关
简单来说 两夫妻有相关性,孩子与两夫妻均相关,控制孩子这个变量后,研究两夫妻的相关性,这就是偏相关,也是正相关(举例是我自己写,非统计数据哈)
线性回归
确定两种或以上变量间相互依赖的定量关系。
一元回归与多元回归
回归分析的一般步骤:
1)确定回归方程中的解释变量(自变量)和因变量
2)确定回归模型
3)建立回归方程
4)对回归方程进行各种检验
5)利用回归方程进行预测
一元线性回归模型:
y = β0 + β1x + e
e :随机误差 ,β0和1为未知参数
e: E(e) = 0, var(e) = σ^2
回归模型为前面两个,无后面的随机误差
SPSS中,保存选项不是把结果输出来,而是把数据预存到数据库里
步进法,都是严进宽出
R 为复相关系数 重点看R^2 ,叫绝对系数,它越大则预测越准确。
一般残差在±3以内
回归标准化残差:(有数个超过±3),说明那些点影响结果,需要重新回顾数据的真实性与准确性,但是不能随意删除。
多元线性回归思想同一元线性回归,但复杂程度远大于一元
多元线性回归,谈的就是建模策略
建模没有最佳。
回归方法:
进入:强制进入,所有变量均进入
逐步:把向前后向后两者结合在一起
向前:先找最有意义的,再找次有意义的
方法上有两张:筛选进入模型的变量可选择逐步,下一张的方法可选择进入
逐步方法会建立多个模型,根据自己目的筛选
建立回归模型的时候,自变量 x 之间不要出现高度相关,就不应该同时进入模型,否则会导致回归系数异常,莫名其妙增大或减少甚至出现负值
统计量中---选择共线性诊断
变量多重共线性问题:
1) 容忍度越接近于1,表示多重共线性越弱。
2)方差膨胀因子 VIF
为容忍度的倒数。通常如果VIF ≥10 ,则说明自变量各Xi 之间 有严重的多重共线性
3)特征根和方差比
这里的特征根是指相关系数矩阵的特征根。如果最大特征根远远大于其他特征根的值,则说明这些解释变量之间具有相当多的重叠信息。
4)条件指数 Ki
10 ≤ Ki ≤ 100 时,认为多重共线性较强
Ki ≥100 时,认为多重共线性很严重
共线性处理方法
1、基于专业进修变量删除
2、逐步回归
3、岭回归(Ridge regression.sps 宏程序)
4、主成分回归
回归系数反常的原因
回归方程建立后,可能发现回归系数从专业知识上解释不通,或整个方程显著,但每个变量没有显著性,或有些变量从专业上看很重要,却选不进方程
原因主要有:1)数据中有离群值或异常值 2)样本含量不够,或自变量数太多(记录数是变量数的20倍以上为宜) 3)自变量之间存在共线性
今天存在一个问题就是:最后如何使用这个预测模型,统计视频中讲的没太懂,但第一步是保存变量