信息论基础——统计自然语言处理基础笔记

在香农的信息论里面,把信息本身看成是一个随机变量,因此要量化信息,自然就是同随机变量的概率以量化。

关于熵的数理运算完全可用概率来理解,依然讲究变量之间的相互独立,同时概率之间相乘,在熵运算中变为可加性,变成相加。

熵也可以从编码角度理解,熵就是对一个随机变量最短的平均编码程度。

1. 自信息

即随机变量等于某个事件的信息量。可以从编码的角度来理解,log是把事件编码之后所用位数的求解函数。

2. 信息熵

从现实意义理解,就是一个事件可能出现情况的混乱程度。可能发生的情况越多,可能发生的概率越大,则混乱程度越大。
从数学上理解,即随机变量每种可能出现情况的自信息的期望——信息量的期望值。

3. 联合熵

即两个随机变量组合成的联合变量的信息熵。
当且仅当,X 和 Y 相互独立, 整个系统的熵等于H(X) + H(Y).

特性:

  1. 大于子系统的熵 H(X,Y)≥H(X)
    增加一个新系统不减少不确定性。

2)子可加性 (Subadditivity) H(X,Y)≤H(X)+H(Y)

4. 条件熵

在已经知道X的情况下,Y的熵

需要注意的一点是,条件熵是X的所有情况下Y信息熵之和。

连锁规则

H(X,Y) = H(X) + H(Y|X)
H(X1,...,Xn) = H(X1) + H(X2|X1) + ... + H(Xn|X1,...,Xn-1)

从此处可见熵的可加性,已知X情况下Y的熵加上X的熵等于X,Y均未知的熵。
其实上述式子把H换成p,把+换成×,完全就是条件概率。

5. 互信息

简单来说就是,已知X情况下Y的信息熵减少的量。X,Y相互独立的时候,互信息为0,因为 H(X|Y) = H(X)。
所以,互信息可以看成是X和Y两个变量之间的相关性的定量分析,互信息越大,相关性越强。

在噪声信道模型中,香农把互信息作为信道质量的考量依据。计算输入发出信号X和接受信号Y的互信息,就可知道信道容量。互信息越大,说明XY相关性越强,从而有Y推知X的可行性越高。

6. 交叉熵

p为真实分布,q为假设分布。用真实出现的情况,计算假设分布q的信息量,并且求均值。就可以得到现在所得到的分布q在真实情况的熵(编码长度)

自然语言处理中的交叉熵:

语言样本很大的时候不必计算加权平均,所以有

当n足够大的时候有:

7. 相对熵(Kullback-Leibler距离)

相对熵 = 交叉熵 - 信息熵
求出真实分布与我们学习得到的分布是否一致

8. 混乱度

perplexity = 2交叉熵

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容