sigmoid function为什么是1/{1+exp(-z)}

逻辑回归模型背景

逻辑回归模型是机器学习中最常见的一种基础模型，模型为:
$f_w,b(x)=\sigma(\sum_{i}w_i \cdot x_i+b) \ \ (1)$ 其中比较核心是sigmoid function，也就是公式（1）的函数。
$\sigma(z)=\frac {1}{1+e^{-z}}$ (1)
sigmoid function的函数图像如下图，根据该函数的特点，可以视为类1的后验概率估计 $p(y=1|z)$ ，也就是说如果取一个 $z$ 点，通过该函数计算的结果可以作为 $z$ 点属于类别1的概率大小。通常在逻辑回归二分类中，我们取值 $\sigma(z)>=0.5$ 时， $y$ 为 $1$ ，否则 $y$ 为 $0$ 。

sigmoid function

之前看书一直以为公式（1）是拍脑袋出来的，其实不然，细看之下其实有很多有趣的巧合，深感数学真是博大精深。

从最大熵模型推导

《The equivalence of logistic regression and maximum entropy models》这篇论文推导的非常透彻，看下来收货不小，简要摘入一些易于理解的部分。

首先对于字母与符号的声明如下：

（1） $x(1),x(2),...,x(m)$ 表示 $n$ 维空间的一个样本， $x(i)$ 表示第 $i$ 个样本， $x(i)_j$ 表示第 $i$ 个样本的第j维的数据（因为 $x$ 是一个 $n$ 维向量）
（2） $y(1),y(2),...,y(m)$ 表示 k 维空间的一个观测结果，记 $k$ 从 $1,2,\dots,k$ 变化，即分类问题中的 $k$ 个类别。
（3） $π(x)$ 是学习得到的概率函数。 $π(x)_u$ 表示数据样本 $x$ 属于类别 $u$ 的概率，我们希望 $π( )$ 具有如下性质：

1.样本x属于类别v的概率大于0，显然概率必须大于0。即 $π(x)_v>0$
2. $\sum_{v=i}^{k}\pi(x)_v=1$ 样本 $x$ 属于各个类别的概率和为1。
3. $\pi(x(i))_{y(i)}$ 在所有类别概率中最大。

（4） $A(u,v)$ 是一个指示函数，当 $u=$ v时 $A(u,v)=1$ ，当 $u\neqv$ 时 $A(u,v)=0$ ，如 $A(u,y(i))$ 表示第 $i$ 个观测结果是否为 $u$ 。

简要推导：

其中第(3).3中的最后一个条件等价于尽可能的让 $\pi(x(i)) \rightarrow y(i)$ 即 $\pi(x(i)) \rightarrow A(u,y(i))$ ,理想情况为 $\pi(x(i))= A(u,y(i))$ ，固有：
$\sum_{i=1}^{m}x(i)_j\pi(x(i))_u=\sum_{i=1}^{m}x(i)_jA(u,y(i)) \ \ (2)$
对所有类别及所有样本取 $\pi( )$ 的熵，可以得到：
$f(v,i)=- \sum_{v=1}^{k} \sum_{i=1}^{m}\pi(x(i))_v log(\pi(x(i))_v) \ \ (3)$
得到一个优化问题：
$\begin{cases} maxf(v,i)=max\left(- \sum_{v=1}^{k} \sum_{i=1}^{m}\pi(x(i))_v log(\pi(x(i))_v) \right) \\ \pi(x)_v>0\\ \sum_{v=1}^{k}\pi(x)_v=1 \\ \sum_{i=1}^{m}x(i)_j\pi(x(i))_u=\sum_{i=1}^{m}x(i)_jA(u,y(i)) \end{cases}$ (4)
利用拉格朗日对偶性求这个优化问题的对偶问题。
$L=\sum_{j=1}^n\sum_{v=1}^k\lambda_{v,j} \left(\sum_{i=1}^m\pi(x(i))_vx(i)_j-A(v,y(i))x(i)_j \right)$
$+\sum_{v=1}^{k}\sum_{i=1}^{k}\beta_i(\pi(x(i))_v-1)-\sum_{v=1}^{k} \sum_{i=1}^{m}\pi(x(i))_v log(\pi(x(i))_v) )$ \ (5)
满足 $\beta<0$ ,有 $KKT$ 条件有：
$\frac{\partial L}{\partial {\pi(x(i))_u}} =\lambda_u \cdot x(i)+\beta_i-\log(\pi(x(i))_u)-1=0 \ \ \ (6)$
计算得到：
$\pi(x(i))_u =e^{\lambda_u\cdot x(i)+\beta_i-1} \ \ \ (7)$
将（7）式代入到 $\sum_{v=1}^{k}\pi(x)_v=1$ 可知： $\sum_{v=1}^{k}e^{\lambda_u\cdot x(i)+\beta_i-1}=1$ 即 $e^\beta=\frac{1}{\sum_{v=1}^{k}e^{\lambda_u\cdot x(i)-1}}$ 代入（7）式计算得：
$\pi(x(i))_u =\frac {e^{\lambda_u\cdot x}}{\sum_{v=1}^{k}e^{\lambda_u\cdot x}} \ \ (8)$
即多分类问题对应的softmax函数。

softmax如何联系上sigmoid

但是二分类问题时，式（8）中 $u$ 自取0与1，则（8）可以改写为：
$\pi(x(i))_1 =\frac {e^{\lambda_1\cdot x}}{e^{\lambda_0\cdot x}+e^{\lambda_1\cdot x}} \ \ (9)$
将分子除分母得：
$\pi(x(i))_1 =\frac {1}{1+e^{-(\lambda_1-\lambda_0)\cdot x}} \ \ (10)$
就形成了sigmoid function。

更直观的理解

知乎上有个关于softmax到sigmoid的理解写的不错，引用如下：

softmax->sigmoid

从最根本的广义线性模型角度推导

大神NG的lecture notes http://cs229.stanford.edu/notes/cs229-notes1.pdf上讲的比较清楚。
首先指数分布族的标准表达式为式：
$p(y;η)=b(y)exp(η^TT(y)-a(η)) \ \ (11)$
其中， $η$ 是分布的自然参数（natural parameter）或典范参数（canonical parameter）， $T(y)$ 叫做充分统计量，通常情况下 $T(y)=y$ ； $a(η)$ 是对数分配函数，而 $a、b$ 与 $T$ 一般都是给定的，随着η的变化，会得到不同的分布。
对伯努利分布的指数分布族标准表达式进行简单推导，如式（12）：
$p(y;\phi)=\phi^y(1-\phi)^{1-y}=e^{y\log\phi+(1-y)\log(1-\phi)} =e^{ \left((\log{(\frac{\phi}{1-\phi}})y)+\log(1-\phi)\right )} \ (12)$
对应标准表达式式（11）可知： $η=\log(\phi/(1- \phi))$ 。
指数家族的问题可以通过GLM（广义线性模型）来解决，在给定x和参数后，y的条件概率p(y|x,θ) 需要满足下面三个假设:

（1） $y | x; θ \sim ExponentialFamily(η)$ .
（2） $h(x) = E[y|x]$ . 即给定 $x$ ，目标是预测 $T(y)$ 的期望，通常问题中 $T(y)=y$
（3） $η$ 和 $x$ 之间是线性的，即 $η = θ^Tx$ 。

我们知道逻辑回归二分类模型的假设前提为：逻辑回归服从伯努利分布，设 $y|x;θ$ 服从伯努利分布，所以可知它的期望为 $\phi$ ，根据构建GLM的第2、3条假设可反推出假设函数 $h(x)$ 为：
$H_θ(x)= E[y|x; θ]= \phi=\frac1{(1+e-η)}= \frac1{(1+e^{-θ^Tx})} \ \ (13)$

从贝叶斯模型角度推导

从贝叶斯模型到逻辑回归公式只要一步，真是巧妙。
$p(c_1|x)=\frac{p(x|c_1)p(c_1)}{p(x|c_1)p(c_1)+p(x|c_2)p(c_2)}$
$=\frac1{1+\frac{p(x|c_2)p(c_2)}{p(x|c_1)p(c_1)}}= \frac1{1+exp(-z)}$
其中 $z=\ln\frac{p(x|c_2)p(c_2)}{p(x|c_1)p(c_1)}$

最后编辑于：2018.08.01 01:36:11

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,423评论 6赞 491
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,147评论 2赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,019评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,443评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,535评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,798评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,941评论 3赞 407
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,704评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,152评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,494评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,629评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,295评论 4赞 329
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,901评论 3赞 313
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,742评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,978评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,333评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,499评论 2赞 348

sigmoid function为什么是1/{1+exp(-z)}

逻辑回归模型背景

从最大熵模型推导

首先对于字母与符号的声明如下：

简要推导：

softmax如何联系上sigmoid

更直观的理解

从最根本的广义线性模型角度推导

从贝叶斯模型角度推导

推荐阅读更多精彩内容