信息量(自信息)
信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大。
因此一个具体事件的信息量应该是随着其发生概率而递减的,且不能为负。
信息量公式
1. 为什么使用对数形式
有两个不相关的事件x和y,则信息量满足h(x,y) = h(x) + h(y),概率满足p(x,y) = p(x)*p(y)
可以看出h(x)与p(x)的对数有关。
2. 使用负号,保证
3. 使用以2为底,遵循信息论的普遍传统
信息熵
考虑随机变量的所有可能取值,所带来的信息量的期望
衡量随机变量或整个系统的不确定性。
如果随机变量不确定性越大,出现不同情况越多,那么信息熵越大。
交叉熵
假如一个随机变量X的真实分布是(1/2,1/4, 1/8,1/8),则信息熵H(x)=1/2 * 1 + 1/4 * 2 + 1/8 * 3 + 1/8 * 3= 1.75。如果忽略真实分布,认为X的分布是(1/4,1/4,1/4,1/4),则这个分布就是非真实分布。根据非真实分布计算信息熵,H(x)=1/2 * 2 + 1/4 * 2 + 1/8 * 2 + 1/8 * 2 = 2,大于1.75。因此,根据系统的真实分布计算系统信息熵是最小的。
交叉熵,衡量在给定的真实分布下,使用非真实分布计算系统的不确定性。
公式:,其中表示真实分布, 表示非真实分布。
最低交叉熵是用真实分布计算的信息熵,此时,交叉熵 = 信息熵。
因此在机器学习中的分类算法中,总是最小化交叉熵。因为交叉熵越低,就证明算法所算出的非真实分布越接近真实分布。
相对熵
衡量两个取值为正的函数或概率分布之间的差异,比如某个策略和最优策略之间的差异。
相对熵 = 某个策略的交叉熵 - 信息熵(根据系统真实分布计算而得的信息熵,为最优策略)
公式:
KL(p || q) = H(p, q) - H(p)=
=
所以上述例子,所产生的相对熵为2 - 1.75 = 0.25.
条件熵
给定X的条件下,Y的不确定性。
在X每一个小类里,计算一个小熵,再每一个小熵乘X各个类别的概率,求和。
信息增益(互信息)
信息熵与条件熵之差,因为新增了X的信息,Y的不确定性减少的程度。
信息增益比,因为取值多的X的信息增益比较大,对此进行校正。
参考: