Information theory

熵(Entropy)

  • 随机变量X的分布是p,那么X的熵\mathbb H(X)\mathbb H(p)是度量随机变量本身不确定性(uncertainty)的。比如有K个状态的离散变量的熵为:
    \mathbb H(X)\triangleq-\sum_{k=1}^Kp(X=k) \log p(X=k)

熵的期望形式:
\mathbb H(X)= \mathbb E_{x\sim p}[-\log p(x)]
实例:

#  K=5
p = [0.25, 0.25, 0.2, 0.15, 0.15]
p = torch.as_tensor(p)
entropy = -torch.sum(p * torch.log2(p))
entropy.item() # 2.285475254058838

以2为基底则称这些单元为bits;以e为基底则称这些单元为nats。可以明确,均匀分布的熵是最大的,比如投硬币,没有哪一面的出现占据更大的可能。
相反,最小熵(为零)的分布是任何把所有质量放在一个状态的函数。这样的分布没有不确定性。

特例,对于二元随机变量X\in\{0,1\},记p(X=1)=\theta,那么p(X=0)=1-\theta,熵的公式为:
\begin{aligned} \mathbb H(X) &=-[p(X=1)\log p(X=1) + p(X=0)\log p(X=0) ]\\ &= -[\theta\log \theta + (1-\theta)\log (1-\theta)] \end{aligned}
这叫做二元熵函数。

KL散度(KL divergence)

  • KL散度又称为相对熵(relative entropy),是度量两个分布pq之间的不相似度(dissimilarity)的。
    \mathbb {KL}(p||q) \triangleq\sum_{k=1}^Kp_k\log \frac{p_k}{q_k}
    分解分子分母得到:
    \mathbb {KL}(p||q) \triangleq\sum_{k=1}^Kp_k\log p_k - \sum_{k=1}^Kp_k\log q_k= -\mathbb H(p)+\mathbb H(p,q)

其中,\mathbb H(p,q)称为交叉熵(cross entropy):
\mathbb H(p,q) =-\sum_{k=1}^Kp_k\log q_k

交叉熵的期望形式:
\mathbb H(p,q)= \mathbb E_{x\sim p}[-\log q(x)]

KL散度的期望形式:
\mathbb {KL}(p||q) = \mathbb E_{x\sim p}[-\log \frac{p(x)}{q(x)}]
交叉熵可以看做模型生成数据服从分布q,拟合真实数据分布p时,所需的平均比特数(bits);
从这个角度出发,熵可以看做\mathbb H(p)=\mathbb H(p,p),即该模型生成数据分布期望使用的比特数;
那么KL散度就是用分布q(模型的)而不是真实数据分布p,编码真实数据所需的平均额外比特数。

  • \mathbb {KL} (p||q) ≥ 0, KL is only equal to zero iff q = p
    证明:
  • 要用到的公式 Jensen’s inequality:对任意凸函数f有:
    f(\sum_{i=1}^n \lambda_ix_i )\leq\sum_{i=1}^n\lambda_i f(x_i),\lambda_i \geq 0 \ and \sum_i^n\lambda_i=1

互信息(Mutual information)

  • 考虑度量两个随机变量XY之间的关系,一般会计算(相关系数),但是更普遍的方法是确定联合分布(jointp(X,Y)与边缘分布乘积(marginalp(X)p(Y)之间的相似性,这个相似的大小就是互信息:
    \mathbb I(X;Y)\triangleq \mathbb {KL}(p(X,Y)||p(X)p(Y))=\sum_x\sum_yp(x,y)\log \frac{p(x,y)}{p(x)p(y)}
    从定义看出互信息是大于等于0的,只有随机变量XY相互独立的时候才会等于0。

互信息与相关系数的关联(connection between MI and correlation coefcients)

todo


参考:
《perspective ML》
demystifying-kl-divergence

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。