逻辑回归常见面试总结

逻辑回归常见面试总结

一、基本知识

简要介绍:逻辑回归假设数据服从伯努利分布,通过极大似然函数的估计方法,运用梯度下降的方法来求解参数,来达到将数据二分类的目的。

1、逻辑回归的假设

逻辑回归的第一个基本假设是假设数据服从伯努利分布。伯努利分布有一个简单的例子抛硬币,抛中为正面的概率是p,抛中为负面的概率是1-p。在逻辑回归这个模型里面是假设h_{\theta}(x)为样本为正的概率,1-h_{\theta}(x)为样本为负的概率。整个模型可以描述为

Snipaste_2019-10-23_17-01-50.png

逻辑回归的第二个假设是假设样本为正的概率是

Snipaste_2019-10-23_17-02-10.png

所以逻辑回归的最终形式

Snipaste_2019-10-23_17-02-17.png

2、逻辑回归的损失函数

逻辑回归的损失函数是它的极大似然函数

Snipaste_2019-10-23_17-17-03.png

3、逻辑回归的求解方法

由于极大似然函数无法直接求解,因此需要通过对该函数进行梯度下降来不断逼近最优解。

这里的考点有批梯度下降、随机梯度下降、小批量梯度下降以及其他优化方式。

1.批梯度下降,这种方式可以获得全局最优解,缺点是更新每个参数的时候需要遍历所有的数据,计算量太大,存在冗余数据,当数据量特别大的时候,每个参数的更新会很慢。

2.随机梯度下降,这种方式每遍历一个样本更新一次参数,更新具有高方差。优点在于容易获得更好的局部最优解,但是收敛比较慢。

3.小批量梯度下降,这种方法结合了批梯度下降和随机梯度下降的优点,每遍历一小批数据更新一次参数,减少了参数更新的次数,加快了收敛

上述三种方法还存在很多不足:

首先,是如何对模型选择合适的学习率。学习率保持不变不是一种好的选择。因为刚开始的时候,参数离最优解隔的比较远,需要保持一个较大的学习率尽快逼近最优解。但是,学习到后面的时候,参数和最优解隔得比较近,继续保持之前的学习率容易越过最优点。

其次,是如何对参数选择合适的学习率。在实践中,对每个参数保持同样的学习率是不合理的。有些参数更新频繁,那么学习率可以适当小一点。有些参数更新缓慢,那么学习率就应该大一点。

4、逻辑回归的目的

将数据二分类,提高准确率。

5、逻辑回归如何进行分类

逻辑回归作为回归模型,若要运用到分类上去可以划定一个阈值,大于这个阈值的归为一类,小于这个阈值的归为一类。例如CTR预估任务。一般阈值取0.5,具体可根据任务进行适当的改进。

二、进一步提问

1、逻辑回归的损失函数为何使用极大似然函数

极大似然估计:利用已有的样本信息,反推最有可能导致这些样本结果出现的模型参数值。

损失函数一般有四种:平方损失函数、对数损失函数、HingeLoss0-1损失函数、绝对值损失函数。将极大似然函数取对数后等同于对数损失函数。在逻辑回归这个模型下,对数损失函数的训练求解参数比较快,原因可参考其梯度更新公式:

Snipaste_2019-10-23_17-17-20.png

在这个式子种参数的更新只和x_{j}i,yi有关。和sigmoid本身无关。更新的速度是可以自始至终都比较的稳定。

若选用平方损失函数,梯度更新的速度和sigmoid本身的梯度相关性很强。sigmoid的梯度在它的定义域内的梯度都不大于0.25。这样训练会非常的慢。

从凸函数的角度来看:

一般和平方损失函数(最小二乘法)拿来比较,因为线性回归用的就是平方损失函数,原因就是平方损失函数加上sigmoid的函数将会是一个非凸的函数,不易求解,会得到局部解,用对数似然函数得到高阶连续可导凸函数,可以得到最优解。

2、逻辑回归在训练的过程当中,如果有很多的特征高度相关或者说有一个特征重复了100遍,会造成怎样的影响:

结论:就算有很多特征高度相关也不会影响分类器的效果。

对于特征本身来说,假设只有一个特征,在不考虑采样的情况下,将它重复100遍。训练完以后,数据还是这么多,但是这个特征本身重复了一百遍,实质上将原来的特征分成了100份,每个特征都是原来特征权值的百分之一。

3、为什么要在训练过程中去掉高度相关的特征

结论:去掉高度相关的特征会让模型的可解释性更好

可以大大提高模型的训练速度。如果模型中有很多高度相关的特征,那么就算函数本身收敛了,但实际上参数是没有收敛的,这样会拉低训练速度。其次是特征多了,本身就会增大训练的时间。

三、逻辑回归的优缺点

优点:

1.形式简单,模型的可解释性好。根据特征的权值可以看到不同特征对最后结果的影响,某个特征的权重值比较高,那么这个特征最后对结果的影响会比较大。

2.模型效果不错。在工程上常被用来做baseline,若是特征工程做的好,效果也不会太差。

3.训练速度快。分类的时候,计算量仅仅只和特征的数目相关。

4.资源占用小,尤其是内存。因为只需要存储各个维度的特征值。

5.方便输出结果调整。逻辑回归可以很方便的得到最后的分类结果,因为输出的是每个样本的概率分数,我们可以很容易的对这些概率分数进行cut off,也就是划分阈值(大于某个阈值的是一类,小于某个阈值的是一类)。

缺点:

1.准确率不会很高。因为模型的形式很简单,很难拟合复杂数据的真实分布。

2.很难处理好数据不平衡问题。举个例子:如果我们对于一个正负样本非常不平衡的问题比如正负样本比 10000:1.我们把所有样本都预测为正也能使损失函数的值比较小。但是作为一个分类器,它对正负样本的区分能力不会很好。

3.处理非线性的数据比较麻烦。逻辑回归在不引入其他方法的情况下,只能处理线性可分的数据,或者进一步说,处理二分类的问题 。

4.逻辑回归本身无法进行特征筛选。一般可以利用GBDT进行特征筛选再作为逻辑回归的输入。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容