信息熵，条件熵，相对熵，交叉熵

信息是一个很抽象的概念，百度百科中的定义：

信息是指音讯、消息、通讯系统传输和处理的对象，泛指人类社会传播的一切内容

那信息可以被量化么？可以的！香农提出的信息熵解决了这一问题。

当我们需要搞清楚一件非常不确定的事，或者一无所知的事，就需要了解大量的信息。相反，如果我们对某件事已经有了较多的了解，我们就不需要太多的信息就能把它搞清楚。

信息量的度量等于不确定性的多少，不确定性越大，信息量越大。而不确定性的多少与概率有关。

自信息

考虑一个离散的随机变量 $X$ ，随机变量的某个取值为 $x$ ， $I(x)$ 被称为 $x$ 的自信息 (selfinformation), 描述的是随机变量的某个事件发生所带来的信息量

$I(x)=-\log p(x)$

其中，负号是用来保证信息量是正数或者零。 $\log$ 函数基的选择是任意的，信息论中基常常选择为 2，因此信息的单位为比特bits; 而机器学习中基常常选择为自然常数，因此单位常常被称为奈特nats。

图像如图:

在这里插入图片描述

信息熵

定义

现在假设想传送一个随机变量的值给接收者，传输的平均信息量可以通过求 $I(x)=-\log p(x)$ 关于概率分布 $p(x)$ 的期望得到，即：
$H(X)=-\sum_{x} p(x) \log p(x)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right)$

$H(X)$ 就被称为随机变量 $X$ 的信息熵,它是表示随机变量不确定的度量，是对所有可能发生的事件产生的信息量的期望。

注意：熵只依赖于随机变量的分布，与随机变量取值无关，所以也可以将 $X$ 的熵记作 $H(p)$

性质

（1）非均匀分布比均匀分布的熵要小

考虑一个随机变量 $X$ ，这个随机变量有4种可能的状态 $\{a, b, c, d\}$ ，每个状态都是等可能的。为了把 $X$ 传给接收者，需要传输2比特的消息。

$H(X)=-4 \times \frac{1}{4} \log _{2} \frac{1}{4}=2\text{bits}$

若 $\{a, b, c, d\}$ 四种状态的概率为 $\left(\frac{1}{2}, \frac{1}{4}, \frac{1}{8}, \frac{1}{8}\right)$

$H(X)=-\frac{1}{2} \log _{2} \frac{1}{2}-\frac{1}{4} \log _{2} \frac{1}{4}-\frac{1}{8} \log _{2} \frac{1}{8}-\frac{1}{8} \log _{2} \frac{1}{8}=1.75 \mathrm{bits}$

对比可以看出，非均匀分布比均匀分布的熵要小。

（2）随机变量的熵和最短编码长度相等

若 $\{a, b, c, d\}$ 四种状态的概率为 $\left(\frac{1}{2}, \frac{1}{4}, \frac{1}{8}, \frac{1}{8}\right)$ 。

为了用更短的编码来传递信息，可以使用下面的编码串 (哈夫曼编码) : 0、10、110、111来表示状态 $\{a, b, c, d\}$ 。传输的编码的平均长度就是：

$\text{average code length}=\frac{1}{2} \times 1+\frac{1}{4} \times 2+2 \times \frac{1}{8} \times 3=1.75\text{bits}$

这个值与上方的随机变量的熵相等。熵和最短编码长度相等是一种普遍的情形。

条件熵

条件熵 $H(Y|X)$ 表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性。

$\begin{aligned}H(Y|X) &=\sum_{x} p(x) H(Y|X=x) \\ &=-\sum_{x} p(x) \sum_{y} p(y|x) \operatorname{logp}(y|x) \\ &=-\sum_{x} \sum_{y} p(x, y) \log p(y|x) \\ &=-\sum_{x, y} p(x, y) \log p(y \mid x)\end{aligned}$

当已知 $H(X)$ 这个信息量的时候, $H(X,Y)$ 剩下的信息量就是条件熵： $H(Y \mid X)=H(X, Y)-H(X)$ 。证明如下:

$\begin{aligned} H(X, Y) &=-\sum_{x, y} p(x, y) \log p(x, y) \\ &=-\sum_{x, y} p(x, y) \log (p(y | x) p(x)) \\ &=-\sum_{x, y} p(x, y) \log p(y|x)-\sum_{x, y} p(x, y) \log p(x) \\ &=H(Y|X)-\sum_{x, y} p(x, y) \log p(x) \\ &=H(Y|X)-\sum_{x} \sum_{y} p(x, y) \log p(x) \\ &=H(Y|X)-\sum_{x} \log p(x) \sum_{y} p(x, y) \\ &=H(Y|X)-\sum_{x} p(x) \log p(x) \\ &=H(Y|X)+H(X) \end{aligned}$

相对熵

又称KL散度，可以用来衡量两个概率分布之间的差异, 下面公式的意义就是求 $p$ 与 $q$ 之间的对数差在 $p$ 上的期望值。

设 $p(x), q(x)$ 是离散随机变量 $X$ 中取值的两个概率分布, 则 $p$ 对 $q$ 的相对熵是:

$D_{K L}(p \| q)=\sum_{x} p(x) \log \frac{p(x)}{q(x)}=E_{p(x)} \log \frac{p(x)}{q(x)}$

性质:
1、如果 $p(x)$ 和 $q(x)$ 两个分布相同, 那么相对熵等于0

$D_{K L}(p \| q) \neq D_{K L}(q \| p)$ ，相对熵不具有对称性。
$D_{K L}(p \| q) \geq 0$

证明如下 (利用Jensen不等式) :

$\begin{aligned}D_{K L}(p \| q) &=\sum_{x} p(x) \log \frac{p(x)}{q(x)} \\ &=-\sum_{x} p(x) \log \frac{q(x)}{p(x)} \\ &=-E_{p(x)}\left(\log \frac{q(x)}{p(x)}\right) \\ & \geq-\log E_{p(x)}\left(\frac{q(x)}{p(x)}\right) \\ &=-\log \sum_{x} p(x) \frac{q(x)}{p(x)} \\ &=-\log \sum_{x} q(x) \end{aligned}$

因为， $\sum_{x} p(x)=1$ ，所以， $D_{K L}(p \| q) \geq 0$

交叉熵

随机变量 $X$ 的两个概率分布， $p(x)$ 为真实分布, $q(x)$ 非真实分布。

真实分布 $p(x)$ 的信息熵（平均编码长度）:

$H(p)=\sum_{x} p(x) \log \frac{1}{p(x)}$

若用非真实分布 $q(x)$ 来表示真实分布 $p(x)$ 的信息熵（平均编码长度），则是：

$H(p, q)=\sum_{x} p(x) \log \frac{1}{q(x)}$

因为 $q(x)$ 编码的样本来自于分布 $p(x)$ , 所以 $H(p, q)$ 中的概率是 $p(x)$ 。 $H(p, q)$ 称为交叉熵.

简化一下相对熵的公式：

$D_{K L}(p \| q)=\sum_{x} p(x) \log \frac{p(x)}{q(x)}=\sum_{x} p(x) \log p(x)-p(x) \log q(x)$

即是：
$D_{K L}(p \| q)=H(p, q)-H(p)$
$相对熵 = 交叉熵 - 真实分布的信息熵$

用非真实分布 $q(x)$ 得到的平均码长比真实分布 $p(x)$ 得到的平均码长多出的比特数就是相对熵

（1）因为 $D_{K L}(p \| q) \geq 0$ ，所以 $H(p, q) \geq H(p)$ ，当 $p(x)=q(x)$ 时取等号，此时交叉熵等于信息熵
（2）当 $H(p)$ 为常量时 (机器学习中训练数据分布是固定的， $H(p)$ 为常量)，最小化相对熵 $D_{K L}(p \| q)$ 等价于最小化交叉熵 $H(p, q)$ ，也等价于最大化似然估计。

总结

（1）信息熵是传输一个随机变量状态值所需的比特位下界（最短平均编码长度）
（2）相对熵是指用分布 $q$ 来表示分布 $p$ 额外需要的编码长度
（3）交叉熵是指用分布 $q$ 来表示分布 $p$ 的平均编码长度

最后编辑于：2021.07.12 11:51:30

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 207,248评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,681评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,443评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,475评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,458评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,185评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,451评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,112评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,609评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,083评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,163评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,803评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,357评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,357评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,590评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,636评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,925评论 2赞 344

信息熵，条件熵，相对熵，交叉熵

自信息

信息熵

定义

性质

条件熵

相对熵

交叉熵

总结

推荐阅读更多精彩内容