信息熵
一条信息的信息量和它的不确定性有关系,对于不知道不了解的事情,所需要的信息量更大。
对于大概率发生的事情的信息量较小,而越小概率的事情发生的信息量越大。比如太阳从东方升起,概率大信息量小。
对于两个独立事件同时发生的概率为p(x,y)=p(x)p(y),而同时发生时获得的信息量应该等于各自发生时获取的信息之和,I(x,y)=I(x)+I(y) 。
由此可见,I(x)一定与p(x)的对数有关。
因此有
其中负号保证为非负数(其中log底在信息论中通常为2,在机器学习中通常为e,如图3所示,当a>1且0<=p(x)<=1时,为图中标黄一部分,需要取负数使其为非负数)
对一个随机变量的不确定性的度量,是对所有可能发生的事件产生的信息量的期望。
从公式可得,随机变量的取值个数越多,信息熵就越大。
当随机分布为均匀分布时,熵最大。
交叉熵
关于样本集的两个概率分布p(x)和q(x),其中p(x)是真实分布,q(x)是非真实分布。如果用非真实分布q(x)来表示来自真实分布p(x)的平均编码长度,则称之为交叉熵。