一般在进行回归之前,会先对数据进行相关性的探索分析。本片内容是对上一篇内容的深入,在确立相关性的基础之上进行回归分析,确定出文教娱乐与衣着之间的回归方程。
Spass实战
依次选择分析 -> 回归 -> 线性
统计选项卡中依次选中估算值,模型拟合
分析结果
表一:方差分析表
查看对模型的检验,该检验是对模型的F检验,显著性指标与0.05进行比较。
表二:回归系数表
对回归系数进行T显著性检验,显著性指标与0.05进行比较。可以直接根据B列写出回归方程。
表三:模型摘要表
这里的R表示的是自变量与因变量的相关程度。值越大表示相关程度越高
这里R方用来评估的是自变量与因变量组成的散点与回归曲线的接近程度,取值于0,1之间。越接近1说明拟合的越好。
Python实战
加载数据并简单探索
data_pca = pd.read_excel('data_pca.xlsx', 'consumption', index_col=0, na_values=['NA'])
# kind` could be one of ['scatter', 'hist', 'hex', 'kde', 'reg', 'resid'], but lin was passed.`
sns.jointplot(data_pca['衣着'],data_pca['文教娱乐'], kind = "reg")
plt.show()
构建最小二乘模型并拟合
y = data_pca['文教娱乐']
x = data_pca['衣着']
x = sm.add_constant(x)
model = sm.OLS(y, x).fit()
print(model.summary())
利用模型进行预测
predicts = model.predict()
x = data_pca['衣着']
plt.scatter(x, y, label='实际值')
plt.plot(x, predicts, color = 'red', label='预测值')
plt.legend()
plt.show()
参考: