逻辑斯谛回归(Logistic Regression,LR)及python实现

0. 简介

逻辑回归中,因变量取值是一个二元分布,模型学习E [y | x; \theta], 给定自变量和超参数后,得到因变量的期望,并基于期望来处理预测分类。

LR模型中,
\log \frac{p}{1-p}=\theta^{\mathrm{T}} x
其中, p 是预测输入为正样本的概率。
定义 事件的几率(odds)为,该事件发生的概率与该事件不发生的概率的比值 \frac{p}{1-p}.

逻辑斯谛回归与线性回归的区别与相同点

逻辑斯谛回归是线性回归在分类问题的推广,使用sigmoid函数作为 link 函数。逻辑回归可以看作广义线性模型在因变量服从二元分布是的一个特殊情况。

线性回归使用最小二乘法进行参数估计,逻辑斯谛回归使用极大似然法,最大化预测属于实际的概率。其实,最小二乘法是在自变量x 与超参数 \theta 确定,因变量y服从正态分布的假设下,使用极大似然估计的一个化简。

LR和SVM(线性核)的联系与区别

LR和SVM的不同

1、损失函数的不同
LR是cross entropy(对数似然损失函数),SVM的损失函数是最大化间隔距离(合页损失);


在这里插入图片描述

2、SVM不能产生概率,LR可以产生概率;
LR 拟合的是概率分布。

3、SVM自带结构风险最小化,LR则是经验风险最小化

在假设空间、损失函数和训练集确定的情况下,经验风险最小化即最小化损失函数;
结构最小化是为了防止过拟合,在经验风险的基础上加上表示模型复杂度的正则项

4、LR和SVM在实际应用的区别

根据经验来看,对于小规模数据集,SVM的效果要好于LR,但是大数据中,SVM的计算复杂度受到限制,而LR因为训练简单,可以在线训练,所以经常会被大量采用。

n 是特征数量, m是样本数:
(1)如果 n 相对于 m 很大,(比如,n=1万, m = 10-1000) 使用LR算法或者 不带核的SVM;
(2) 如果 n 很小,m的数量适中(比如, n = 1-1000, m = 10-10000)
使用带有核函数的SVM算法
(3)如果n 很小, m很大, (n = 1-1000, m = 50000+)
增加更多的feature,使用LR或者不带核函数的SVM。
LR和不带核的SVM类似。

5、SVM的处理方法是只考虑support vectors,也就是和分类最相关的少数点,去学习分类器。
而逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重。

1. 为什么LR是线性模型

逻辑斯蒂回归是假设因变量服从伯努利分布

在这里插入图片描述

也就是说,经过sigmoid函数,将 x 映射为 \phi 后,x与y的概率分布仍然是指数分布簇,即模型仍是广义线性模型。

2. LR模型定义

LR模型定义:

在这里插入图片描述

线性二分类模型:
f(x)=\theta^{T} x
其中,f(x)=0是决策平面。

逻辑回归决策函数是将此线性二分类嵌套一个sigmoid函数:
h_{\theta}(x)=\operatorname{sigmoid}(f(x))=\frac{1}{1+e^{-\theta^{T} x}}
该式子取值在0~1,它的含义是,二分类中,类别y 为正类(即1)的概率。

(为什么h_{\theta}(x)可以看做是正类的概率?
因为,在线性二分类中,\theta^{T} x>0属于正类,因此,这里h_{\theta}(x)>0.5属于正类。h_{\theta}(x)取值又在0~1之间,因此,在二分类中,把h_{\theta}(x)当作正类的概率没问题。
这里,有点本末倒置,因为构建LogisticRegression时,就是引入概率 p 来解释 y,通过 log[ p/(1-p)]=y来进行连接 p 和 y 的关系。

因此,在二分类中,
P(Y=1 | x)=\frac{\exp (\theta^{T} x)}{1+\exp (\theta^{T} x)}\\ P(Y=0 | x)=\frac{1}{1+\exp (\theta^{T} x)}
其中,\theta^{T} x = w \cdot x+b
此外, 如果取Y的取值为{+1, -1 }; 最终梯度计算会不一样。

最大似然函数:
\begin{aligned} L(\theta)=& p(\hat{y} | X ; \theta)=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right) \\ &=\prod_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)\right)^{y^{(i)}}\left(1-h_{\theta}\left(x^{(i)}\right)\right)^{\left(1-y^{(i)}\right)} \end{aligned}
(这里也体现了LR满足伯努利分布。)
令损失函数为负对数似然函数:

\operatorname{loss}(\theta)=-\log (L(\theta))=- \left\{ \sum_{i=1}^{m} y^{(i)} \log \left(h\left(x^{(i)}\right)\right) + \left(1-y^{(i)}\right) \log \left(1-h\left(x^{(i)}\right)\right) \right\}
化简得到:
loss(\theta) = - \sum_{i=1}^{m} [ (y-1)\theta^Tx - log(1+e^{-\theta^Tx})]\\ = - \sum_{i=1}^{m} [ y\theta^Tx - log(1+e^{\theta^Tx})]
loss(\theta) 求极小值。

\frac{\partial}{\partial \theta} J(\theta) = -\sum_{i=1}^{m}\left(y^{(i) }-h_{\theta}\left(x^{(i)}\right)\right) \cdot x_{i}

这也是梯度下降法计算的参数梯度。
参数更新:
沿着负梯度方向进行更新。
w \leftarrow w-\alpha \cdot \frac{\partial}{\partial w} J(w,b)
b \leftarrow b-\alpha \cdot \frac{\partial}{\partial b} J(w,b)

3. 多分类LR

假如有y 有K类,使用多项逻辑回归(softmax regression)来分类。
p(x = k) = \frac{e^{w_k\cdot x} } {\sum_{i = 1}^{K}{e^{w_k\cdot x}}}
损失函数:
Loss( w ) = \sum\limits_{i = 1}^{N} \sum\limits_{j = 1}^{k} [ sign(y_i = c) log(P(Y = c | x) ]
或者采用 one-vs-rest 方法,构建 K-1 个逻辑斯蒂回归模型。

4. 防止过拟合方法

1.减少特征数量;
2.正则化

损失函数:
Loss( w ) = -\frac{1}{N}\sum\limits_{i = 1}^{N} [y_i log(P(Y = 1 | x) + (1 - y_i) log( P( Y = 0 | x )] + \frac{\lambda}{2*N}\sum_{j = 1}^{N} {\theta_j^2 }\\ = -\frac{1}{N} \sum\limits_{i = 1}^{N} [y_i (wx + b) - log(1 + log( 1 + e ^{wx + b})] + \frac{\lambda}{2*N}\sum_{j = 1}^{N} {\theta_j^2 }
\lambda为正则化系数。

model.LogisticRegression(penalty='l2', *, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver='lbfgs', max_iter=100, multi_class='auto', verbose=0, warm_start=False, n_jobs=None, l1_ratio=None)

在sklearn 中, 可以设置 超参数C(正则项惩罚系数的倒数)

L1,L2惩罚项的区别

L1容易使得LR系数 w 更加稀疏;
L2 相当于weight decay,目标函数变为凸函数,梯度下降法和L-BFGS都能收敛到全局最优解。
正则化项实际上是给了模型一个先验知识,L2正则相当于添加了一个均值为0,协方差为 1/λ 的高斯分布先验。

5. 实践

LogisticRegression二分类的python实现,由于LogisticRegression没有解释解,使用梯度下降法进行求解。

import sklearn.datasets as datasets
import numpy as np
from sklearn.linear_model import LogisticRegression as LR
class LogisticRegression():
    def __init__(self,alpha=0.01,epochs=3):
        self.W = None 
        self.b = None
        self.alpha = alpha
        self.epochs = epochs
    def fit(self,X,y): 
        # 设定种子
        np.random.seed(10)
        self.W = np.random.normal(size=(X.shape[1]))
        self.b = 0
        for epoch in range(self.epochs):
            if epoch%50 == 0:
                print("epoch",epoch)
            w_derivate = np.zeros_like(self.W)
            b_derivate = 0
            for i in range(len(y)):
                # 这里是加上负梯度
                w_derivate += (y[i] - 1/(1+np.exp(-np.dot(X[i],self.W.T)-self.b)))*X[i]
                b_derivate += (y[i] - 1/(1+np.exp(-np.dot(X[i],self.W.T)-self.b)))
            self.W = self.W + self.alpha*np.mean(w_derivate,axis=0)
            self.b = self.b + self.alpha*np.mean(b_derivate)
        return self
    def predict(self,X):
        p_1 = 1/(1 + np.exp(-np.dot(X,self.W) - self.b))
        return np.where(p_1>0.5, 1, 0)
def accuracy(pred, true):
    count = 0
    for i in range(len(pred)):
        if(pred[i] == true[i]):
            count += 1
    return count/len(pred)
def normalize(x):
    return (x - np.min(x))/(np.max(x) - np.min(x))

if __name__ == "__main__":
    # input datasets 
    digits = datasets.load_breast_cancer()
    X = digits.data
    y = digits.target
    # 归一化
    X_norm = normalize(X)
    X_train = X_norm[:int(len(X_norm)*0.8)]
    X_test = X_norm[int(len(X_norm)*0.8):]
    y_train = y[:int(len(X_norm)*0.8)]
    y_test = y[int(len(X_norm)*0.8):]
    # model 1
    lr = LogisticRegression(epochs=500,alpha=0.03)
    lr.fit(X_train,y_train)
    y_pred = lr.predict(X_test)
    # 评估准确率
    acc = accuracy(y_pred, y_test)
    print("acc", acc)
    # model 2
    clf_lr = LR()
    clf_lr.fit(X_train, y_train)
    y_pred2 = clf_lr.predict(X_test)
    print("acc2", accuracy(y_pred2, y_test))

运行结果:

acc 0.9473684210526315
acc2 0.9298245614035088

可以看到自己写的LR模型比sklearn里边实现的效果更好,原因,可能是我们设定的超参数(如alpha,epoch)更加适合这个小数据集吧。

6. 其他问题

LR特征离散化原因:
1.离散特征容易增加和减少特征,快速迭代模型;
2.稀疏向量内积乘法运算速度更快,计算易于存储、扩展;
3.离散特征对异常值不敏感,鲁棒性强;
4.简化了逻辑斯蒂模型,降低模型过拟合。
5.离散化的特征方便进行特征交叉,使得模型的表达能力更强。

把高度相关的特征去掉原因:

使得模型的可解释性更强;提高训练速度。
如果模型很多特征高度相关,损失函数本身收敛了,参数仍然没有收敛,训练时间变长。

避免局部极小方法:

1.以多组不同参数值进行初始化;
2.使用随机梯度下降,加入随机的因素。

特征系数绝对值能认为是特征重要性吗?
1.特征系数绝对值越大,对分类效果的影响越显著,但不能认为特征系数更大的特征更重要。
2.改变变量尺度会改变系数绝对值;
3.特征相关,系数可以认为从一个特征转移到另一个特征;

逻辑斯谛回归需要标准化?
理论上不需要,因为特征尺寸发生改变,并不影响到最优决策面;但是,为了加快模型的收敛速度,一般也进行标准化。

但是,像Lasso回归,岭回归,是需要对数据进行标准化的,因为在输入的缩放比例下不是等变的。


参考:

  1. zhihu 为什么机器学习的分类器用logistic模型?;
  2. 机器学习面试题汇总(逻辑斯蒂回归相关);
  3. Logistic 回归的三个视角(极大似然估计/熵/形式化损失函数);
  4. 机器学习之逻辑回归(Logistic Regression);
  5. 浅析机器学习:线性回归 & 逻辑回归;
  6. 在进行数据分析的时候,什么情况下需要对数据进行标准化处理?;
  7. 在进行逻辑回归之前需要标准化吗?;
  8. sklearn lr;
  9. 逻辑回归L1与L2正则,L1稀疏,L2全局最优(凸函数梯度下降)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352