广义线性模型(一)

一、说明

本章主要讲述一些用于回归的方法,如果需要使用广义线性模型进行分类,请使用Logistic回归。

二、符号说明

y:目标值    \hat{y} :预测值    x:特征值    w:特征权值向量,w=(w_{1} ,...,w_{p} )^T

w_{0} :截距    n:样本数量    p:特征数量    X: 训练集

l1先验正则性:||w||_1=|w_1|+| w_2|+...+|w_p|

l2先验正则项:||w||_{2} =\sqrt{w_1^2+w_2^2+...+w_p^2}

其中,y是x的线性组合,则:y=w_{0}+w_{1}x_{1}+...+w_{p}x_{p}

\alpha :惩罚项

C:SVM的正则化参数

三、普通最小二乘法

普通最小二乘法拟合一个带有系数w=(w_{1} ,...,w_{p} )^T 的线性模型,使得目标值和预测值之间的残差平方和最小,其数学表达式为:

arg \min_{w}||Xw-y||_{2}^2

3.1、普通最小二乘法示例

普通最小二乘法
权值与截距

普通最小二乘法优势:简单,易于实现。

普通最小二乘法缺点:普通最小二乘法的系数估计依赖于各个特征的相互独立性。当各个特征相关时,样本集合X所构成的矩阵会趋向于奇异矩阵,那么这种模型对于随机误差会非常敏感,可能产生很大的方差。比如,我们将最右下角的点重新设为(5,20),拟合直线会产生较大波动。

改变最右下角的点
权值与截距

3.2、普通最小二乘法的复杂度

由于对X矩阵进行奇异值分解,假设矩阵大小为(n,p),当n≥p时,该方法的复杂度为O(np^2)

四、岭回归

岭回归通过对系数施加惩罚来解决最小二乘法的缺点,其数学表达式为:

arg \min_{w}||Xw-y||_{2}^2+\alpha ||w||_2^2

4.1、岭回归示例

岭回归模型
权值与截距

从岭回归模型可以看出来岭回归具有较好的鲁棒性。

4.2、岭回归复杂度

岭回归只是在普通最小二乘法的基础上增加了惩罚项,所以它的复杂度与普通最小二乘法一样。

4.3、设置α参数:广义交叉验证

广义交叉验证是一种有效的留一验证,如果我们将超参数值cv修改为10,则广义交叉验证变为10折交叉验证。

岭回归广义交叉验证模型
权值、截距与最佳α值

如果将最后一个点的y值设置更大点,普通最小二乘法与岭回归的对比效果可能会更明显点。

五、Lasso回归

Lasso回归利用坐标下降法拟合稀疏系数的线性模型,即它设定一些系数为0,倾向于使用较少参数值的情况,有效的减少所依赖的特征数量。它的最小化目标函数为:

arg\min_{w}\frac{1}{2n} ||Xw-y||_{2}^2+\alpha ||w||_1

5.1、Lasso回归示例

随机生成200*5000的回归数据集,利用Lasso回归,我们可以看看它最终的权值向量(由于特征过多,给出部分):


Lasso回归结果

最后权值向量中非0元素只有10个,意味着我们可以只用其中对应的10个特征来训练数据集就可以得到一个很好的模型,Lasso回归的效果应该不言而喻了吧。

5.2、使用交叉验证

对于Lasso回归来说,有两种交叉验证函数,一种是LassoCV,还有一种是LassoLarsCV(就是下面要说的最小角回归)。根据官网API的说明,当样本数量比特征数量少的多时,LassoLarsCV更快,通常,远小于的标准为n<p*5\%

5.3、与SVM正则化参数的比较

\alpha =\frac{1}{C}             或者            \alpha =\frac{1}{n*C}

六、弹性网络

弹性网络是一种使用L1、L2范数作为先验正则项的线性回归模型,这种组合既可以像Lasso一样允许拟合到只有少量参数的非零稀疏模型,也可以像Ridge一样保持它的可导性质。弹性网络在特征相互联系下是很有用的。它的最小化目标函数为:

arg\min_{w}\frac{1}{2n} ||Xw-y||_{2}^2+\alpha \rho ||w||_1+\frac{\alpha (1-\rho )}{2} ||w||_2^2

其中,\rho 控制l_1与l_2正则化的强度,比如令\rho =0,那么这个式子就转换为了带l_2罚项的目标函数。

6.1、弹性网络示例

与Lasso回归的数据集一样,我们看看弹性网络的效果。(由于特征过多,博主只给出部分)

弹性网络回归结果

经检验,最后弹性网络权值向量中非0元素占了2111个。那么它和Lasso回归相比,哪个效果更好一点呢?

我们利用R^2分数来进行对比:

分数对比

差距挺大,问题出在哪?经过博主的不断查找,总结有两点原因:1、我们的决定系数R^2,分数高不一定说明每个回归系数都可信任,换句话说,从5000维降到2111维可能比从5000维降到10维的权值更可信一点。2、我们选取的数据为200*5000维,对于这样的高维数据,并且参杂着一半的噪声的数据,Lasso可能更适合一点。

七、最小角回归

LARS也是一种对高维数据的回归算法,这里我们只介绍它的主要优点和缺点:

优点:

1、当p>>n时,该算法运算更快。

2、它拥有和普通最小二乘法相同的复杂度(如果数据集的n和p都不是非常大的话的确算个优点)。

缺点:

对噪声非常敏感(博主认为这个缺点很致命),我们不妨看看它对噪声到底有多敏感:

我们将回归数据集的一半替换为噪声,我们看看它与Lasso的效果差别:

分数对比

当然,在不同的数据集中会有不同的结果,如果你觉得结果能在你的容许范围内,想要换取更快的时间,那么就用最小角回归。


博主想把广义线性模型分为两部分,毕竟量太多,博主也需要时间去思考。博主认为对于绝大多少机器学习者来说,应该将重点放在业务上,知道何时用什么模型,理论给予我们的是:当模型出现问题的时候,我们能够通过理论迅速定位问题出在哪里。最后,如有错误,请指正;如有疑问,请留言。


参考:《Scikit-learn文档》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,743评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,296评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,285评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,485评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,581评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,821评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,960评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,719评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,186评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,516评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,650评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,329评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,936评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,757评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,991评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,370评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,527评论 2 349

推荐阅读更多精彩内容