开学还有多远?
今天有同学问我是否有开学的信息,我回答了不确定,需要等学校开会讨论。同时,我意识到这是一个数学问题。我想可以用熵描述开学的不确定性。假设开学的可能性有两种,分别为开学和延迟,我们可以理解为这个事件发生的有2种结果,发生概率都为1/2,用p表示,对应每一种可能携带的熵值为
所以学校开学的信息熵值就为开学和延迟两种结果的熵值相加,即
此时,在所有可能性的概率相等的时候,熵值为1,开学是非常不确定的。
为什么要这样子计算呢?
我们整理一下开学事件的时间线。
2月16日,有同学问我如期开学的可能性,我说已经通知延迟,因为结果只有一种确定延迟,所以开学的不确定性为0。
3月1日,有同学问我3月6日开学的可能性,我说未收到通知,很可能是继续延迟,这时候这个事件的形势发生了变化,结果变成了2种,开学的可能性较小,我假设为0.1,而延迟的可能性较大,就为。
开学的概率 = 0.1
延迟的概率 = 1- 开学的概率 = 0.9
虽然延迟的可能性仍然很大,但相比于2月16日,开学事件的结果已经产生了不确定性。
我们仔细考虑这两种结果,开学的可能性为0.1,如果3月6日开学,就使一个小概率的事件成真,与此同时,就意味着其他的结果都为假了,这里就意味着事件的概率越低,所携带的信息量越大,我们使用倒数来描述这一现象,开学的可能性为0.1,也就意味着这个结果携带的信息为 ;同时,延迟的可能性为0.9,意味着延迟携带的信息为 。
开学所携带的信息 = 1/0.1
延迟所携带的信息 = 1/0.9
数学家香农Shannon认为信息量应该使用底数为2的log函数描述这一现象,所以开学和延迟携带的信息就分别为和。
开学所携带的信息 = log2(1/0.1)
延迟所携带的信息 = log2(1/0.9)
此时我们将这些信息综合,开学的概率和携带的信息量相乘构成了开学这一结果的不确定性,同理计算出延迟的不确定性,相加得到即3月1日的开学事件的熵值为0.4690,相比与2月16日,开学的不确定性上升了,虽然延迟的可能性很大,但开学的可能性已经出现。
开学的熵 = 1/10 * log2(1/(1/10))
延迟的熵 = 9/10 * log2(1/(9/10))
3月1日的开学事件的熵 = 开学的熵 + 延迟的熵 = 0.4690
3月1日后,每5天就有一位同学问我下一周开学的可能性,我根据每天汇总到的信息计算出每次询问时候开学和延迟的可能性,如下表所示
日期 | 开学概率 | 延迟概率 | 熵 |
---|---|---|---|
3月6日 | 0.3 | 0.7 | 0.8813 |
3月11日 | 0.5 | 0.5 | 1.0000 |
3月16日 | 0.8 | 0.2 | 0.7219 |
近期学校通知教师3月16日上班准备开学事宜,虽然具体的开学日期没有通知,但这一信号大大提高了开学的可能性,一种结果的可能性增加意味着总体的不确定性降低了,熵也相较于3月11时候低。
- 我们这里所使用的计算公式就来自于熵值的计算公式。
- 熵是用来描述无序性的,也可以用来描述不确定性。
- 随着工作逐渐恢复正常,开学的日期也会明确,也就意味着这一事件的不确定性会降低,即熵值会下降。