逻辑回归常见面试总结

一、基本知识

简要介绍：逻辑回归假设数据服从伯努利分布，通过极大似然函数的估计方法，运用梯度下降的方法来求解参数，来达到将数据二分类的目的。

1、逻辑回归的假设

逻辑回归的第一个基本假设是假设数据服从伯努利分布。伯努利分布有一个简单的例子抛硬币，抛中为正面的概率是p，抛中为负面的概率是1-p。在逻辑回归这个模型里面是假设 $h_{\theta}(x)$ 为样本为正的概率， $1-h_{\theta}(x)$ 为样本为负的概率。整个模型可以描述为

Snipaste_2019-10-23_17-01-50.png

逻辑回归的第二个假设是假设样本为正的概率是

Snipaste_2019-10-23_17-02-10.png

所以逻辑回归的最终形式

Snipaste_2019-10-23_17-02-17.png

2、逻辑回归的损失函数

逻辑回归的损失函数是它的极大似然函数

Snipaste_2019-10-23_17-17-03.png

3、逻辑回归的求解方法

由于极大似然函数无法直接求解，因此需要通过对该函数进行梯度下降来不断逼近最优解。

这里的考点有批梯度下降、随机梯度下降、小批量梯度下降以及其他优化方式。

1.批梯度下降，这种方式可以获得全局最优解，缺点是更新每个参数的时候需要遍历所有的数据，计算量太大，存在冗余数据，当数据量特别大的时候，每个参数的更新会很慢。

2.随机梯度下降，这种方式每遍历一个样本更新一次参数，更新具有高方差。优点在于容易获得更好的局部最优解，但是收敛比较慢。

3.小批量梯度下降，这种方法结合了批梯度下降和随机梯度下降的优点，每遍历一小批数据更新一次参数，减少了参数更新的次数，加快了收敛

上述三种方法还存在很多不足：

首先，是如何对模型选择合适的学习率。学习率保持不变不是一种好的选择。因为刚开始的时候，参数离最优解隔的比较远，需要保持一个较大的学习率尽快逼近最优解。但是，学习到后面的时候，参数和最优解隔得比较近，继续保持之前的学习率容易越过最优点。

其次，是如何对参数选择合适的学习率。在实践中，对每个参数保持同样的学习率是不合理的。有些参数更新频繁，那么学习率可以适当小一点。有些参数更新缓慢，那么学习率就应该大一点。

4、逻辑回归的目的

将数据二分类，提高准确率。

5、逻辑回归如何进行分类

逻辑回归作为回归模型，若要运用到分类上去可以划定一个阈值，大于这个阈值的归为一类，小于这个阈值的归为一类。例如CTR预估任务。一般阈值取0.5，具体可根据任务进行适当的改进。

二、进一步提问

1、逻辑回归的损失函数为何使用极大似然函数

极大似然估计：利用已有的样本信息，反推最有可能导致这些样本结果出现的模型参数值。

损失函数一般有四种：平方损失函数、对数损失函数、HingeLoss0-1损失函数、绝对值损失函数。将极大似然函数取对数后等同于对数损失函数。在逻辑回归这个模型下，对数损失函数的训练求解参数比较快，原因可参考其梯度更新公式：

Snipaste_2019-10-23_17-17-20.png

在这个式子种参数的更新只和x_{j}^i，yi有关。和sigmoid本身无关。更新的速度是可以自始至终都比较的稳定。

若选用平方损失函数，梯度更新的速度和sigmoid本身的梯度相关性很强。sigmoid的梯度在它的定义域内的梯度都不大于0.25。这样训练会非常的慢。

从凸函数的角度来看：

一般和平方损失函数（最小二乘法）拿来比较，因为线性回归用的就是平方损失函数，原因就是平方损失函数加上sigmoid的函数将会是一个非凸的函数，不易求解，会得到局部解，用对数似然函数得到高阶连续可导凸函数，可以得到最优解。

2、逻辑回归在训练的过程当中，如果有很多的特征高度相关或者说有一个特征重复了100遍，会造成怎样的影响：

结论：就算有很多特征高度相关也不会影响分类器的效果。

对于特征本身来说，假设只有一个特征，在不考虑采样的情况下，将它重复100遍。训练完以后，数据还是这么多，但是这个特征本身重复了一百遍，实质上将原来的特征分成了100份，每个特征都是原来特征权值的百分之一。

3、为什么要在训练过程中去掉高度相关的特征

结论：去掉高度相关的特征会让模型的可解释性更好

可以大大提高模型的训练速度。如果模型中有很多高度相关的特征，那么就算函数本身收敛了，但实际上参数是没有收敛的，这样会拉低训练速度。其次是特征多了，本身就会增大训练的时间。

三、逻辑回归的优缺点

优点：

1.形式简单，模型的可解释性好。根据特征的权值可以看到不同特征对最后结果的影响，某个特征的权重值比较高，那么这个特征最后对结果的影响会比较大。

2.模型效果不错。在工程上常被用来做baseline，若是特征工程做的好，效果也不会太差。

3.训练速度快。分类的时候，计算量仅仅只和特征的数目相关。

4.资源占用小,尤其是内存。因为只需要存储各个维度的特征值。

5.方便输出结果调整。逻辑回归可以很方便的得到最后的分类结果，因为输出的是每个样本的概率分数，我们可以很容易的对这些概率分数进行cut off，也就是划分阈值(大于某个阈值的是一类，小于某个阈值的是一类)。

缺点：

1.准确率不会很高。因为模型的形式很简单，很难拟合复杂数据的真实分布。

2.很难处理好数据不平衡问题。举个例子：如果我们对于一个正负样本非常不平衡的问题比如正负样本比 10000:1.我们把所有样本都预测为正也能使损失函数的值比较小。但是作为一个分类器，它对正负样本的区分能力不会很好。

3.处理非线性的数据比较麻烦。逻辑回归在不引入其他方法的情况下，只能处理线性可分的数据，或者进一步说，处理二分类的问题。

4.逻辑回归本身无法进行特征筛选。一般可以利用GBDT进行特征筛选再作为逻辑回归的输入。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 215,723评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,003评论 3赞 391
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 161,512评论 0赞 351
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,825评论 1赞 290
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,874评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,841评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,812评论 3赞 416
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,582评论 0赞 271
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,033评论 1赞 308
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,309评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,450评论 1赞 345
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,158评论 5赞 341
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,789评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,409评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,609评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,440评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,357评论 2赞 352

逻辑回归常见面试总结

逻辑回归常见面试总结

推荐阅读更多精彩内容