1、商业数据分析简介
分析是一门使用数据构建模型的科学,这些模型可为公司、机构和个人的决策增加价值。
唯一客观的事实是数据。
模型的作用就是帮助我们从数据中挖掘有用的信息,以帮助管理者作出合理的决策。
大数据的特点(6V):
VOLUME:数据量大,一般到PB级
VARIETY:数据类型多
VELOCITY:数据产生速度快
VARACITY:数据可信
VALUE:数据具有商业价值
VARIABILITY:具备使用和格式化大数据的方式
结论:大数据分析能够赋予企业和个人强大的竞争优势;大数据分析对企业的成功至关重要。
2、线性回归
2.1 基本假设
(1)自变量相互线性独立;
(2)常数方差或同方差及不相关假定;在此条件下可以得到关于回归系数的最小二乘估计及误差的方差估计的一些重要性质,如回归系数的最小二乘估计是回归系数的最小方差线性无偏估计等。
(3)正态分布假定;在此条件下可得到关于回归系数的最小二乘估计及误差的方差估计的进一步结果,如它们分别是回归系数的最小方差无偏估计等,并且可以进行回归系数的显著性检验及区间估计。
2.2回归系数的估计
估计参数的方法有最小二乘法。
2.3回归系数的计算
梯度下降法:通过迭代方式逐步得到最优的结果。
2.4模型的评价
除了受自变量x的影响外,因变量y还受许多其他变量的影响,这些其他变量统称为残差变量,残差变量包含了除x以外其他所有变量对y的效应。
总平方和=回归平方和+残差平方和
使用回归平方和占总平方和的比值来反映自变量x对因变量y的解释能力,这就是判定系数R2。
判定系数R2说明自变量x相对于其他变量(残差变量)来说对因变量y的影响有多重要,而且说明了这些点离回归直线越近,残差平方和越小。
2.5模型的参数检验
由于抽样的随机性,通过样本得到的回归系数会与真实值有一定的差距。
要将样本数据得到的结论推广到总体,需要通过检验总体中因变量y和自变量x之间没有相关性的零假设来实现。
t检验:对单个总体参数的假设检验,如系数1=0
F检验:对回归模型整体显著性的假设检验,如系数1=0,系数2=0……系数n=0
3、回归模型的选择
模型并不是自变量越多越好,而是尽可能少而精。在一个现象的几个合理的解释中,最简单的是最好的(奥卡姆剃刀原则)。
△不必要的自变量会增加估计噪声。
△如果自变量在回归模型中全部都使用的话,就会出现多重共线性等问题。
当比较潜在模型时可以使用一些方法做出选择:
1、基于标准的选择
2、基于假设检验的选择
3、收缩方法:岭(Ridge)回归, Lasso回归
3.1基于标准的选择
两种模型选择标准:
1、Ra2统计量,在回归模型的残差平方和( Residual Sum of Squares, RSS)和模型复杂度k之间的平衡。
2、AIC (Akaike Information Criterion)赤池信息标准,间接地刻画了估计模型和真实模型之间的距离,所以我们将选择最小化 AIC 的模型。AIC 在模型选择中为拟合性和简洁性提供了平衡。
由于向模型添加变量会减少RSS,因而会增加R2,所以R2并不是一个好的标准,它总会选择最大可能的模型。Ra2(修正后R2)通过引进自变量数量k,对自变量增加进行了约束。
可以从拟合优度的角度在一系列回归模型中选择Ra2最大的回归模型作为最优模型。
3.2基于假设检验的选择
基于p值的三种假设检验选择方法:向后消除,向前选择,逐步回归
向后消除 (backward elimination) 是所有变量选择过程中最简单的一种
• 从包含所有自变量的模型开始,删除大于阈值 acrit 的最高p值的一个自变量;
• 重新拟合模型,并删除剩余变量中的最不显著的自变量,删除标准依然是其p值大于acrit;
• 重复进行该过程;直至所有不显著的自变量被删除,从而完成变量选择过程获得最佳模型 。
向前选择(forward selection)是向后选择方法的相反过程。
逐步回归(stepwise regression) 是向后消除和向前选择的组合
• 在每个阶段可以添加或删除一个变量,使得变量有进有出;
• 解决了在流程早期添加或删除的变量,在后来不能删除或添加的矛盾;
• 实际上,逐步回归法并不是一个新的回归方法,所用到的参数估计方法都是之前介绍的,只是从众多变量中选择出最优模型的一套方法。
3.3收缩方法:岭回归、Lasso回归
通过对回归系数进行收缩,在尽量减少自变量的基础上获得好的模型。
岭回归(Ridge Regression)由 Hoerl 和 Kennard 于1970年提出,是一种有偏估计,是对最小二乘法(无偏估计)的改进。岭回归(Ridge Regression)通过添加系数的L2范数惩罚项来修正残差平方和。
选择好的或 t 值的原则:
- 各回归系数的岭估计基本稳定;
- 最小二乘估计的回归系数符号不合理时,岭估计参数的符号变得合理;
- 回归系数没有不合乎实际意义的绝对值;
- 相对最小二乘估计的残差平方和(RSS)增加不太多;
5.自变量矩阵存在共线性,使得的普通最小二乘估计不稳定时,岭回归特别有效。
Lasso回归通过添加系数的L1范数惩罚项来修正残差平方和。
1.对于Lasso,中等值的会使得很多 趋于0;
2.当相信因变量可以被少数自变量解释,而其余自变量没有影响时,使用Lasso 是最合适的;
3.Lasso可以被视为一种变量选择方法;
4.岭回归没有消除任何变量,它只是让变小了一点。