我们的生活在一个不确定性的世界,我们所接触的大量事件都不是绝对的,而是以某种概率存在。 比如,明天是否降雨,考试分数,回家的路上是否堵车,投资能否成功,等等。 测量,是科学的第一步。 为了科学的研究这个不确定的世界,我们首先就需要一个单位, 来衡量不确定性的大小。 我们在信息论中, 用熵(Entropy)作为不确定性的单位。
为了衡量一个事件的不确定性, 我们首先要用一个随机变量来代表一个随机事件。 如果我们知道了
的分布, 那么就可以利用
, 写出熵的定义。
解释
-
: 随机事件
的熵。
-
: 概率分布
-
: 进制,它决定了熵的单位
- 2: bit 比特 : (是的,就是我们常见的bit, 因为计算机用二进制)
-
: nat 奈特
-
: ban
为什么是
而不是
?
是概率分布,理论上取值为[0-1] , 但是, 当
时,就会遇到
没有定义的问题。 我们知道:
所以, 加上 以后, 就可以保证
在任何时候都成立。
例子
比如用 来代表我们投出一个硬币后, 硬币正面向上,还是反面向上这件事。 (这里我们使用2进制,即
)
(1)如果这个硬币是公平的硬币, , 那么
(2)如果这个硬币是不公平的硬币, , 那么
(3)如果这个硬币是不公平的硬币, , 那么
(4)如果这个硬币是不公平的硬币, , 那么
如果更密集的取点, 那么就可以画出来下面的图形 ():
总结
(1) 当 时, 系统的不确定性最高。 如果一个人猜硬币正反面,这时他最没有把握。
(2) 当 时, 系统的不确定就相对比较高了, 对于猜硬币的人来说, 他就有比较大的把握。
(3) 当时, 熵为0,系统的不确定性完全消失。 熵为0的系统, 没有不确定性。
熵与信息
刚刚说,base=2 的熵的单位叫 bit , 我们经常接触的,信息的单位也是 bit。 这并不是巧合, 二者某种程度上说, 就是一个事物的一体两面。 这要从信息的本质说起:
信息是用来消除不确定性(熵)的, 消除1bit 的熵 ,需要1bit的信息。
用上面的例子来说, 当硬币正反几率相等的时候, 如果我们要知道答案,我们就需要1bit 的信息。 而当时, 熵为0, 我们不需要任何信息, 就可以知道答案。
热力学的熵 与 信息熵
我们刚才说的熵, 是信息熵, 而在热力学中 ,也有熵的概念, 二者都是用来描述系统混乱程度的。 本文开头的图片中, 左边杯子中的水, 以冰的的形式存在, 在杯子里面并不是均匀分布的, 此时熵比较低, 对应到信息熵, 我们可以说, 此时,我们更容易判断某个水分子在杯子中的位置。 而右边杯子中, 冰已经化成水, 水分子的活动空间增加, 水分子在杯子中分布更加均匀, 此时的熵也就要更高。