本文讨论了回归系数表的一个最重要的用途——确定哪个变量起作用。这是五篇讨论逻辑回归结果系数表及其用途系列的第二部分。
回归系数表用途 #1: 确定哪个变量值得关注
你可以通过查看回归系数的p值哪个变量在逻辑回归中起作用。Kid Creative逻辑回归的系数表如下:
其中p值为第四列标记为P(>| z |)的数值。一般认为,p值小于0.05的自变量是显著的,也就是说,有统计学证据表明该变量会影响因变量为1的概率(即顾客购买杂志)。概括来说,对于给定的显著水平a,若p值小于a,则该变量在a水平有显著差异。
如果我们检查上述逻辑回归结果中的p值,会发现以下变量在5%水平具有显著差异:
- Income:p值为0.0000。这表明有很强的统计学证据表明收入和顾客购买杂志(Y = 1)的可能性相关。
- Is_Female: p值为0.0004。因此有很强的统计学证据表明女性购买的可能性更大。
- Minors:p值为0.0145。这意味着有很强的统计学证据表明,如果家庭中有未成年人,顾客购买的可能性更大。
- White:p值为0.0006。表明白人顾客比非白人顾客购买的可能性更大。
- PrevChildMag:p值为0.0287。表明之前购买过其他儿童杂志的顾客更有可能购买该杂志。
如果我们将显著水平放宽到0.1,则除上述变量外,ResidenceLength、Own、English这三个因素也与因变量相关。
在结束本文之前,我想提醒你几件事。首先,当我们说某个自变量不相关,意味着其相应的回归系数(beta)为0。因此以上关于自变量是否相关的讨论,实际上讨论的是统计假设检验是否显示回归系数不为0(原假设 beta = 0)。其次,评估一个自变量的影响是以其他自变量为条件的。因此,当我们说没有显著的统计学证据表明顾客是否就业与购买与否相关,意思是没有证据表明在这个逻辑回归模型中该变量比其他变量(包括收入,它可能吸收了一部分就业状态的影响)更要紧。如果只建立一个只纳入就业状态的回归模型,可能得到一个完全不同的结果。
这里我试了一下,只用就业状态一个变量:
可以看到p值变小了很多,说明之前的模型中,就业状态的影响确实被其他变量分流了一部分。