逻辑回归（Logistic Regression）

逻辑回归的定义

简单来说，逻辑回归（Logistic Regression）是一种用于解决二分类（0 or 1）问题的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。注意，这里用的是“可能性”，而非数学上的“概率”，logisitc回归的结果并非数学定义中的概率值，不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和，而非直接相乘。

那么逻辑回归与线性回归是什么关系呢？

逻辑回归（Logistic Regression）与线性回归（Linear Regression）都是一种广义线性模型（generalized linear model）。逻辑回归假设因变量 y 服从伯努利分布，而线性回归假设因变量 y 服从高斯分布。因此与线性回归有很多相同之处，去除Sigmoid映射函数的话，逻辑回归算法就是一个线性回归。可以说，逻辑回归是以线性回归为理论支持的，但是逻辑回归通过Sigmoid函数引入了非线性因素，因此可以轻松处理0/1分类问题。

假设函数（Hypothesis function）

首先我们要先介绍一下Sigmoid函数，也称为逻辑函数（Logistic function）：

$g(z)= \frac{1}{1 e^{-z}}$

其函数曲线如下：

从上图可以看到sigmoid函数是一个s形的曲线，它的取值在[0, 1]之间，在远离0的地方函数的值会很快接近0或者1。它的这个特性对于解决二分类问题十分重要

逻辑回归的假设函数形式如下：

$h_\theta(x) = g(\theta^T x), g(z)= \frac{1}{1 e^{-z}}$

所以：

$h_\theta(x)= \frac{1}{1 e^{-\theta^Tx}}$

其中x是我们的输入，theta为我们要求取的参数。

一个机器学习的模型，实际上是把决策函数限定在某一组条件下，这组限定条件就决定了模型的假设空间。当然，我们还希望这组限定条件简单而合理。而逻辑回归模型所做的假设是：

$P(y=1|x;\theta) =g(\theta^Tx)= \frac{1}{1 e^{-\theta^Tx}}$

这个函数的意思就是在给定x, theta的条件下y=1的概率。

这里 g(h)就是我们上面提到的sigmoid函数，与之相对应的决策函数为：

选择0.5作为阈值是一个一般的做法，实际应用时特定的情况可以选择不同阈值，如果对正例的判别准确性要求高，可以选择阈值大一些，对正例的召回要求高，则可以选择阈值小一些。

决策边界（Decision Boundary）

决策边界，也称为决策面，是用于在N维空间，将不同类别样本分开的平面或曲面。

注意：决策边界是假设函数的属性，由参数决定，而不是由数据集的特征决定。

这里我们引用Andrew Ng 课程上的两张图来解释这个问题：

线性决策边界

这里决策边界为:

$-3 x_1 x_2=0$

非线性决策边界

这里决策边界为:

$-1 x_1^2 x_2^2 = 0$

上面两张图很清晰的解释了什么是决策边界，决策边界其实就是一个方程，在逻辑回归中，决策边界由

$\theta^Tx=0$

定义。

$P(y=1|x;\theta) =g(\theta^Tx)= \frac{1}{1 e^{-\theta^Tx}}$

这里我们要注意理解一下假设函数和决策边界函数的区别与联系。决策边界是假设函数的属性，由假设函数的参数 theta 决定。
在逻辑回归中，假设函数 h=g(z) 用于计算样本属于某类别的可能性；

决策函数

用于计算（给出）样本的类别；

决策边界

$\theta^Tx=0$

是一个方程，用于标识出分类函数（模型）的分类边界。

代价函数（Cost Function）

什么是代价函数？

假设有训练样本 (x,y) 模型为 h , 参数为 theta 。

$h(\theta) = \theta^Tx$

其中，theta^T 表示　theta 的转置。

概况来讲，任何能够衡量模型预测出来的值 h(theta)与真实值 y 之间的差异的函数都可以叫做代价函数:

$C(\theta)$

如果有多个样本，则可以将所有代价函数的取值求均值，记做:
$J(\theta)$

因此很容易就可以得出以下关于代价函数的性质：

选择代价函数时，最好挑选对参数 theta 可微的函数（全微分存在，偏导数一定存在)
对于每种算法来说，代价函数不是唯一的；
代价函数是参数 theta 的函数；
总的代价函数

$J(\theta)$

可以用来评价模型的好坏，代价函数越小说明模型和参数越符合训练样本 (x,y)；
J(\theta)是一个标量；

当我们确定了模型 h，后面做的所有事情就是训练模型的参数 theta。那么什么时候模型的训练才能结束呢？这时候也涉及到代价函数，由于代价函数是用来衡量模型好坏的，我们的目标当然是得到最好的模型（也就是最符合训练样本的模型）。因此训练参数的过程就是不断改变 theta，从而得到更小的 J(theta)的过程。理想情况下，当我们取到代价函数 J 的最小值时，就得到了最优的参数 theta，记为：

$\displaystyle \min_{ \theta } J(\theta)$

例如，
$J(\theta)=0$

，表示我们的模型完美的拟合了观察的数据，没有任何误差。

在优化参数θ的过程中，最常用的方法是梯度下降，这里的梯度就是代价函数 J(theta)对
$\theta_1, \theta_2, ..., \theta_n$

的偏导数。由于需要求偏导，我们可以得到另一个关于代价函数的性质：

选择代价函数时，最好挑选对参数 theta 可微的函数（全微分存在，偏导数一定存在）

代价函数的常见形式

经过上面的描述，一个好的代价函数需要满足两个最基本的要求：能够评价模型的准确性，对参数 theta 可微。

在线性回归中，最常用的是均方误差(Mean squared error)，即:

m：训练样本的个数；
h_\theta(x)：用参数 *theta和 x 预测出来的 y 值；
y ：原训练样本中的 y 值，也就是标准答案;
上角标 (i) ：第 i 个样本。

在逻辑回归中，最常用的是代价函数是交叉熵(Cross Entropy)，交叉熵是一个常见的代价函数，在神经网络中也会用到。下面是《神经网络与深度学习》一书对交叉熵的解释：
交叉熵是对「出乎意料」（译者注：原文使用suprise）的度量。神经元的目标是去计算函数 x→y=y(x)。但是我们让它取而代之计算函数 x→a=a(x) 。假设我们把 a 当作 y 等于1的概率，1−a是 y 等于0的概率。那么，交叉熵衡量的是我们在知道 y 的真实值时的平均「出乎意料」程度。当输出是我们期望的值，我们的「出乎意料」程度比较低；当输出不是我们期望的，我们的「出乎意料」程度就比较高。
在1948年，克劳德·艾尔伍德·香农将热力学的熵，引入到信息论，因此它又被称为香农熵(Shannon Entropy)，它是香农信息量(Shannon Information Content, SIC)的期望。香农信息量用来度量不确定性的大小：一个事件的香农信息量等于0，表示该事件的发生不会给我们提供任何新的信息，例如确定性的事件，发生的概率是1，发生了也不会引起任何惊讶；当不可能事件发生时，香农信息量为无穷大，这表示给我们提供了无穷多的新信息，并且使我们无限的惊讶。更多解释可以看这里。

符号说明同上.

但是我们会疑问，为什么这么定义代价函数呢？下面我会简单的解释一下：
对于单个的样本来讲， J(theta)所对应的 C(\theta)为：

上面的方程等价于：

当 y=1 时：

其函数图像为：

从图中可以看出，y=1 ，当预测值

$h_\theta(x)=1$

时，可以看出代价 h_\theta(x)=\frac{1}{1+e^{-\thetaTx}} 函数 C(\theta) 的值为0，这正是我们希望的。如果预测值

$h_\theta(x)=1$

即

$P(y=1|x;\theta)=0$

,意思是预测 y=1的概率为0，但是事实上 y=1，因此代价函数

$C(\theta)=\infty$

相当于给学习算法一个惩罚。

同理，我们也可以画出当 y=0时，函数 C(theta)的图像：

代价函数与参数

代价函数衡量的是模型预测值h(θ) 与标准答案y之间的差异，所以总的代价函数J是h(θ)和y的函数，即，J=f(h(θ), y)。又因为y都是训练样本中给定的，h(θ)有θ决定，所以，最终还是模型参数θ的改变导致了J的改变。对于不同的θ，对应不同的预测值h(θ)，也就对应着不同的代价函数J的取值。变化过程为：

为了更直观的看到参数对代价函数的影响，举个简单的例子：
有训练样本{(0, 0), (1, 1), (2, 2), (4, 4)}，即4对训练样本，每个样本中第1个是x的值，第2个是y的值。这几个点很明显都是y=x这条直线上的点。如下图：

import matplotlib.pyplot as plt
import numpy as np
X = np.array([[0, 1, 2, 4]]).T  # 都转换成列向量
y = np.array([[0, 1, 2, 4]]).T
theta1 = np.array([[0, 0]]).T  # 三个不同的theta_1值
theta2 = np.array([[0, 0.5]]).T
theta3 = np.array([[0, 1]]).T
X_size = X.shape
X_0 = np.ones((X_size[0],1))  # 添加x_0
X_with_x0 = np.concatenate((X_0, X), axis=1)
h1 = np.dot(X_with_x0, theta1)
h2 = np.dot(X_with_x0, theta2)
h3 = np.dot(X_with_x0, theta3)
plt.plot(X, y, 'rx', label='y')
plt.plot(X, h1, 'b', label='h1, theta_1=0')
plt.plot(X, h2, 'm', label='h2, theta_1=0.5')
plt.plot(X, h3, 'g', label='h3, theta_1=1')
plt.xlabel('X')
plt.ylabel('y/h')
plt.axis([-0.1, 4.5, -0.1, 4.5])
plt.legend(loc='upper left')
plt.savefig('liner_gression_error.png', dpi=200)

常数项为0，所以可以取θ0=0，然后取不同的θ1，可以得到不同的拟合直线。当θ1=0时，拟合的直线是y=0，即蓝色线段，此时距离样本点最远，代价函数的值（误差）也最大；当θ1=1时，拟合的直线是y=x，即绿色线段，此时拟合的直线经过每一个样本点，代价函数的值为0。

通过下图可以查看随着θ1的变化，J(θ)的变化情况：

# 计算代价函数的值
def calcu_cost(theta, X, y):
    m = X.shape[0]  # sample size
    X_0 = np.ones((m,1))
    X_with_x0 = np.concatenate((X_0, X), axis=1)
    h = np.dot(X_with_x0, theta)
    return(np.dot((h-y).T, (h-y))/(2*m))

X = np.array([[0, 1, 2, 4]]).T
y = np.array([[0, 1, 2, 4]]).T
theta_0 = np.zeros((101, 1))
theta_1 = np.array([np.linspace(-2, 4, 101)]).T
theta = np.concatenate((theta_0, theta_1), axis=1)  # 101组不同的参数
J_list = []
for i in range(101):
    current_theta = theta[i:i+1].T
    cost = calcu_cost(current_theta, X, y)
    J_list.append(cost[0,0])
plt.plot(theta_1, J_list)
plt.xlabel('theta_1')
plt.ylabel('J(theta)')
plt.savefig('cost_theta.png', dpi=200)

从图中可以很直观的看到θ对代价函数的影响，当θ1=1时，代价函数J(θ)取到最小值。因为线性回归模型的代价函数（均方误差）的性质非常好，因此也可以直接使用代数的方法，求J(θ)的一阶导数为0的点，就可以直接求出最优的θ值。

代价函数与梯度

梯度下降中的梯度指的是代价函数对各个参数的偏导数，偏导数的方向决定了在学习过程中参数下降的方向，学习率（通常用α表示）决定了每步变化的步长，有了导数和学习率就可以使用梯度下降算法（Gradient Descent Algorithm）更新参数了, 即求解使 J(\theta) :

看来其和线性回归中的梯度下降函数形式一模一样，但其实是不一样的，因为在logistic回归中

$h_\theta(x)=\frac{1}{1 e^{-\theta^Tx}}$

关于从

$\theta_j = \theta_j \alpha (\frac {\partial}{\partial \theta_j})J(\theta)$

到

推导如下：

Reference:

[机器学习] Coursera ML笔记 - 逻辑回归（Logistic Regression）

sigmoid函数详解mmmmmm新浪博客

逻辑斯谛回归之决策边界 logistic regression -- decision boundary

【机器学习】代价函数（cost function）

最后编辑于：2017.12.10 09:28:47

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 224,815评论 6赞 522
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 96,251评论 3赞 402
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 171,999评论 0赞 366
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 60,996评论 1赞 300
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 69,993评论 6赞 400
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 53,477评论 1赞 314
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 41,848评论 3赞 428
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 40,823评论 0赞 279
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 47,361评论 1赞 324
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 39,401评论 3赞 346
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 41,518评论 1赞 354
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 37,119评论 5赞 351
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 42,850评论 3赞 338
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 33,292评论 0赞 25
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 34,424评论 1赞 275
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 50,072评论 3赞 381
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 46,588评论 2赞 365